BEIR
(A Heterogeneous Benchmark for Zero-shot Evaluation of Information Retrieval Models)
文本检索任务的基准,使用18 个数据集为检索系统的零样本评估提出了一个标准化基准, BEIR 基准上在9个不同领域的检索任务评估 10 种不同的检索方法。
九个不同领域的检索任务,如下:
- 1、事实核查(Fact checking)
- 2、引文预测(Citation prediction)
- 3、重复问题检索(Duplicate question retrieval)
- 4、论据检索(Argument retrieval)
- 5、新闻检索(News retrieval)
- 6、问题回答(Question Answering)
- 7、推文检索(Tweet retrieval)
- 8、生物医学检索(Bio-Medical IR)
- 9、实体检索(Entity retrieval)
BEIR来评估来自五大架构的十种不同的检索方法,其中的五大架构如下:
- 1、词法(lexical)
- 2、稀疏(sparse)
- 3、密集(dense)
- 4、后期交互(late interaction)
- 5、重排序(re-ranking)
BEIR来评估的十种不同的检索方法,如下:
- BM25 (Anserini) https://github.com/castorini/anserini
- DeepCT http://boston.lti.cs.cmu.edu/appendices/arXiv2019-DeepCT-Zhuyun-Dai/
- SPARTA https://huggingface.co/BeIR/sparta-msmarco-distilbert-base-v1
- DocT5query https://huggingface.co/BeIR/query-gen-msmarco-t5-base-v1
- DPR (Query) https://huggingface.co/sentence-transformers/facebook-dpr-question_encoder-multiset-base
- DPR (Context) https://huggingface.co/sentence-transformers/facebook-dpr-ctx_encoder-multiset-base
- ANCE https://huggingface.co/sentence-transformers/msmarco-roberta-base-ance-firstp
- TAS-B https://huggingface.co/sentence-transformers/msmarco-distilbert-base-tas-b
- ColBERT https://public.ukp.informatik.tu-darmstadt.de/thakur/BEIR/models/ColBERT/msmarco.psg.l2.zip
- MiniLM-L6 (CE) https://huggingface.co/cross-encoder/ms-marco-MiniLM-L-6-v2
(1)BEIR基准的十种不同的检索方法在领域上数据集上的表现:
(1)BEIR基准的十种不同的检索方法的性能开销
结论:
1、发现没有任何一种方法在所有的数据集上都能持续胜过其他方法。
2、一个模型的领域内性能与它的泛化能力并不相关:用相同的训练数据进行微调的模型可能会有不同的泛化能力。
3、发现性能和计算成本之间的权衡:计算成本高的模型,如重排模型和后期交互模型表现***好。更有效的方法,如基于密集或稀疏嵌入的方法,可以大大低于传统的词汇模型,如BM25的表现。
4、未来的工作需要更好的无偏见的数据集,允许对所有类型的检索系统进行公平的比较。
参考
BEIR: A Heterogeneous Benchmark for Zero-shot
Evaluation of Information Retrieval Models
发表评论:
◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。