选择最适合数据的嵌入模型:OpenAI 和开源多语言嵌入的对比测试
OpenAI最近发布了他们的新一代嵌入模型embedding v3,他们将其描述为性能最好的嵌入模型,具有更高的多语言性能。这些模型分为两类:较小的称为text- embeddings -3-small,较大且功能更强大的称为text- embeddings -3-large。
这些模型的设计和训练方式的信息披露得很少,模型只能通过付费API访问。所以就出现了很多开源的嵌入模型但是这些开源的模型与OpenAI闭源模型相比如何呢?
本文将这些新模型与开源模型的性能进行实证比较。我们将创建一个数据检索工作流,在这个工作流中,必须根据用户查询找到语料库中最相关的文档。
我们的语料库是欧洲人工智能法案,该法案目前处于验证的最后阶段。这个语料库除了是世界上第一个关于人工智能的法律框架外,还有一个重要的特点就是它有24种语言版本。这样我们可以比较不同语系的数据检索的准确性。
我们将从多语言文本语料库生成自定义合成问题/答案数据集,在此自定义数据集上比较OpenAI和最先进的开源嵌入模型的准确性。最后会提供完整的代码,因为本文所采用的方法可以适用于其他数据语料库。
https://avoid.overfit.cn/post/722aa2145139453aaf692c147d06b3c8