大语言模型-文本检索任务基准 BEIR_python

BEIR

(A Heterogeneous Benchmark for Zero-shot Evaluation of Information Retrieval Models)

文本检索任务的基准，使用18 个数据集为检索系统的零样本评估提出了一个标准化基准， BEIR 基准上在9个不同领域的检索任务评估 10 种不同的检索方法。

九个不同领域的检索任务，如下:

1、事实核查（Fact checking）
2、引文预测（Citation prediction）
3、重复问题检索（Duplicate question retrieval）
4、论据检索（Argument retrieval）
5、新闻检索（News retrieval）
6、问题回答（Question Answering）
7、推文检索（Tweet retrieval）
8、生物医学检索（Bio-Medical IR）
9、实体检索（Entity retrieval）
BEIR来评估来自五大架构的十种不同的检索方法，其中的五大架构如下：
- 1、词法（lexical）
- 2、稀疏（sparse）
- 3、密集（dense）
- 4、后期交互（late interaction）
- 5、重排序（re-ranking）
  BEIR来评估的十种不同的检索方法，如下：
  1. BM25 (Anserini) https://github.com/castorini/anserini
  2. DeepCT http://boston.lti.cs.cmu.edu/appendices/arXiv2019-DeepCT-Zhuyun-Dai/
  3. SPARTA https://huggingface.co/BeIR/sparta-msmarco-distilbert-base-v1
  4. DocT5query https://huggingface.co/BeIR/query-gen-msmarco-t5-base-v1
  5. DPR (Query) https://huggingface.co/sentence-transformers/facebook-dpr-question_encoder-multiset-base
  6. DPR (Context) https://huggingface.co/sentence-transformers/facebook-dpr-ctx_encoder-multiset-base
  7. ANCE https://huggingface.co/sentence-transformers/msmarco-roberta-base-ance-firstp
  8. TAS-B https://huggingface.co/sentence-transformers/msmarco-distilbert-base-tas-b
  9. ColBERT https://public.ukp.informatik.tu-darmstadt.de/thakur/BEIR/models/ColBERT/msmarco.psg.l2.zip
  10. MiniLM-L6 (CE) https://huggingface.co/cross-encoder/ms-marco-MiniLM-L-6-v2
  (1)BEIR基准的十种不同的检索方法在领域上数据集上的表现：
  
  (1)BEIR基准的十种不同的检索方法的性能开销
  
  结论：
  
  1、发现没有任何一种方法在所有的数据集上都能持续胜过其他方法。
  2、一个模型的领域内性能与它的泛化能力并不相关：用相同的训练数据进行微调的模型可能会有不同的泛化能力。
  3、发现性能和计算成本之间的权衡：计算成本高的模型，如重排模型和后期交互模型表现***好。更有效的方法，如基于密集或稀疏嵌入的方法，可以大大低于传统的词汇模型，如BM25的表现。
  4、未来的工作需要更好的无偏见的数据集，允许对所有类型的检索系统进行公平的比较。
  
  参考
  
  BEIR: A Heterogeneous Benchmark for Zero-shot
  Evaluation of Information Retrieval Models

一	二	三	四	五	六	日
			1	2	3	4
5	6	7	8	9	10	11
12	13	14	15	16	17	18
19	20	21	22	23	24	25
26	27	28	29	30	31

AI工具箱

大语言模型-文本检索任务基准 BEIR

BEIR

九个不同领域的检索任务，如下:

BEIR来评估来自五大架构的十种不同的检索方法，其中的五大架构如下：

BEIR来评估的十种不同的检索方法，如下：

(1)BEIR基准的十种不同的检索方法在领域上数据集上的表现：

(1)BEIR基准的十种不同的检索方法的性能开销

结论：

参考