随笔分类 - 搜索引擎
摘要:LM出来后对爬虫程序有了新的要求,LLM也给爬虫带来了新的解决方案,本文分析Jina Reader和ScrapeGraphAI两块具有代表性的LLM时代的抓取工具功能、实现原理,带你看LLM时代的爬虫工具
阅读全文
摘要:前面我们通过两篇文章: [BGE M3-Embedding 模型介绍](https://www.cnblogs.com/xiaoqi/p/18143552/bge-m3) 和 [Sparse稀疏检索介绍与实践](https://www.cnblogs.com/xiaoqi/p/18135929/sparse_retrieval) 介绍了sparse 稀疏检索,今天我们来看看如何建立一个工程化的系统来实现sparse vec的检索。
阅读全文
摘要:BGE M3-Embedding是BAAI开源的embedding模型,支持多语言,多粒度,多功能检索,本文介绍模型的相关信息
阅读全文
摘要:这里分享同济大学 `Haofen Wang`的关于检索增强生成的报告:《Retrieval-Augmented Generation (RAG): Paradigms, Technologies, and Trends》,全面了解RAG 范式、技术和趋势。
阅读全文
摘要:语义索引(可通俗理解为向量索引)技术是搜索引擎、推荐系统、广告系统在召回阶段的核心技术之一。本文介绍In-batch negatives方法训练embedding模型,以及通过mteb测试模型recall效果。
阅读全文
摘要:RAG 是当前使用LLM的标准方法,大多数现有方法仅从检索语料库中检索短的连续块,限制了对整个文档上下文的整体理解。
最近,一种名为 RAPTOR (Recursive Abstractive Processing for Tree-Organized Retrieval)方法提出来, 可以让RAG的准确率提高 20%
阅读全文
摘要:MTEB 是一个包含广泛文本嵌入(Text Embedding)的基准测试,它提供了多种语言的数十个数据集,用于各种 NLP 任务,例如文本分类、聚类、检索和文本相似性。本文介绍MTEB,以及如何自定义模型和评测任务。
阅读全文
摘要:我们从搜索引擎召回时,肯定希望召回相关性高的数据,那么如何来量化相关度呢。本文从TF-IDF开始,介绍BM25,BM25+,以及使用bert模型训练term weighting模型
阅读全文
摘要:[Xapian](https://xapian.org/) 是一个开源搜索引擎库,使用 C++ 编写,并提供绑定([bindings](https://xapian.org/docs/bindings/) )以允许从多种编程语言使用。它是一个高度适应性的工具包,允许开发人员轻松地将高级索引和搜索功能添加到自己的应用程序中。Xapian 支持多种加权模型和丰富的布尔查询运算符。最新稳定版本是 1.4.24,发布于 2023 年 11 月 6 日。
Xapian是20年前就开源的搜索引擎,整体比较稳定,功能层面较lucene有差距,但是足够成熟可用。唯一的缺憾是GPL V2协议。
阅读全文
摘要:本文从从Bitcask存储模型讲起,谈轻量级KV系统设计与实现。从来没有最好的K-V系统,只有最适合应用业务实际场景的系统,做任何的方案选择,要结合业务当前的实际情况综合权衡,有所取有所舍。
阅读全文
摘要:本文介绍如何离线生成sst并在线加载,提供一种用rocksdb建立分布式kv系统替换mongodb的思路
阅读全文
摘要:`Hnswlib`是一个强大的近邻搜索(ANN)库, 官方介绍 `Header-only C++ HNSW implementation with python bindings, insertions and updates`. 热门的向量数据库Milvus底层的ANN库之一就是`Hnswlib`, 为milvus提供HNSW检索。
阅读全文
摘要:Trafilatura是一个Python包和命令行工具,用于收集网络上的文本。其主要应用场景包括网络爬虫下载和网页解析等。
今天我们不讨论爬虫和抓取,主要看他的数据解析是如何做的。
阅读全文
摘要:selenium 配置代理需要在启动的时候配置,如果代理失效或者不可用,切换需要重启,可以使用搭建一个代理中转服务,让selenium连接固定的中转服务,中转服务选择可用的代理。
阅读全文