02 2024 档案

摘要:LangChain 是一个利用LLM开发应用程序的框架, 文本介绍LangChain的入门使用 阅读全文
posted @ 2024-02-29 21:41 JadePeng 阅读(1438) 评论(0) 推荐(2) 编辑
摘要:MTEB 是一个包含广泛文本嵌入(Text Embedding)的基准测试,它提供了多种语言的数十个数据集,用于各种 NLP 任务,例如文本分类、聚类、检索和文本相似性。本文介绍MTEB,以及如何自定义模型和评测任务。 阅读全文
posted @ 2024-02-26 15:31 JadePeng 阅读(2806) 评论(0) 推荐(0) 编辑
摘要:在文本索引构建这种需要大量占用磁盘IO的任务,如果正巧你的内存还有点余粮,是否可以先索引存储到内存,然后再顺序写入到磁盘呢?,需要大量占用磁盘IO,如果正巧你的内存还有点余粮,是否可以先索引存储到内存,然后再顺序写入到磁盘呢? 阅读全文
posted @ 2024-02-06 12:17 JadePeng 阅读(623) 评论(0) 推荐(3) 编辑
摘要:我们从搜索引擎召回时,肯定希望召回相关性高的数据,那么如何来量化相关度呢。本文从TF-IDF开始,介绍BM25,BM25+,以及使用bert模型训练term weighting模型 阅读全文
posted @ 2024-02-02 15:30 JadePeng 阅读(4738) 评论(0) 推荐(1) 编辑