利用 MTEB 基准

要全面评估编码器的功能,最好的参考是大规模文本嵌入基准(MTEB)。这个基准可以让我们根据向量的维度、检索的平均性能和模型的大小来对比不同的编码器。不过,我们也不能完全相信这个基准的结果,因为它并不是万能的,而且模型的训练数据的细节可能没有公开。

MTEB 不仅给我们展示了 OpenAI、Cohere 和 Voyager 等流行嵌入的性能,还告诉我们一些开源模型也有相近的性能水平。但是,我们要注意,这些结果只是一个大概的概览,可能不能准确反映这些嵌入在我们的领域和上下文中的表现。所以,在最终选择之前,我们必须对我们的数据集进行深入的评估,强调定制评估方法的重要性。

huggingface 维护了一套 embedding 评测指标:https://hf-mirror.com/spaces/mteb/leaderboard

 

text2vec-base-chinese

说明

关联模型

text2vec-large-chinese

text2vec-base-chinese-paraphrase:https://huggingface.co/shibing624/text2vec-base-chinese-paraphrase

下载:https://huggingface.co/shibing624/text2vec-base-chinese

资料

 

M3E

说明

下载

资料

https://mp.weixin.qq.com/s/3o-Kcox-gVkMyX_bxKE20w  M3E:新的中文Embedding模型

M3E(Moka Massive Mixed Embedding):新的中文Embedding模型,使用千万级(2200w+)中文句对数据集进行训练,

支持异质文本,在文本分类和文本检索的任务上效果超过openai-ada-002模型。

 

BGE-BAAI General Embedding

说明

关联模型

bge-large-zh

下载:https://huggingface.co/BAAI/bge-large-zh

资料