摘要: MindSearch 是InternLM团队的一个开源的 AI 搜索引擎框架,由中科大和上海人工智能实验室联合打造的,具有与 Perplexity.ai Pro 相同的性能。本文介绍MindSearch 的相关原理。 阅读全文
posted @ 2024-08-18 15:23 JadePeng 阅读(763) 评论(0) 推荐(1) 编辑
摘要: 本文主要记录通过网页控制安卓设备相关的实践过程,通过从adb方案开始,到uiautomator2,以及最后放弃scrpy方案,在这个热闹的周末,正好闲暇的时间,了解过去不曾接触的知识,也是一个有趣的过程。 阅读全文
posted @ 2024-08-11 22:37 JadePeng 阅读(330) 评论(0) 推荐(0) 编辑
摘要: 最近Mem0横空出世,官方称之为PA的记忆层,The memory layer for Personalized AI,有好事者还称这个是RAG的替代者,Mem0究竟为何物,背后的原理是什么,我们今天来一探究竟。 阅读全文
posted @ 2024-07-22 09:59 JadePeng 阅读(7864) 评论(1) 推荐(1) 编辑
摘要: PhiData以其强大的功能集成和灵活的部署选项,为AI产品开发提供了极大的便利和高效性。它为构建智能AI助手提供了一个全新的视角,让开发者能够探索AI的无限可能。如果你对构建AI产品感兴趣,不妨试试PhiData。 阅读全文
posted @ 2024-05-23 16:07 JadePeng 阅读(1227) 评论(0) 推荐(1) 编辑
摘要: Google推出了实验性的NotebookLM产品,一款基于RAG的个性化AI助手产品,基于用户提供的可信信息,通过RAG,帮助用户洞察和学习参考内容,然后借助AI整理笔记,转换为用户最终需要的大纲、博客、商业计划书等最终目的。 阅读全文
posted @ 2024-05-20 12:01 JadePeng 阅读(1305) 评论(0) 推荐(0) 编辑
摘要: Playwright是新兴的自动化测试工具,拥有丰富的功能和API,隐藏在众多的爬虫和自动化工具背后,而多模LLM的出现让Playwright可以如虎添翼,自动化智能化的RPA工具预计将会井喷般出现。 阅读全文
posted @ 2024-05-15 11:29 JadePeng 阅读(1149) 评论(0) 推荐(6) 编辑
摘要: LM出来后对爬虫程序有了新的要求,LLM也给爬虫带来了新的解决方案,本文分析Jina Reader和ScrapeGraphAI两块具有代表性的LLM时代的抓取工具功能、实现原理,带你看LLM时代的爬虫工具 阅读全文
posted @ 2024-05-09 18:01 JadePeng 阅读(1640) 评论(0) 推荐(1) 编辑
摘要: 前面我们通过两篇文章: [BGE M3-Embedding 模型介绍](https://www.cnblogs.com/xiaoqi/p/18143552/bge-m3) 和 [Sparse稀疏检索介绍与实践](https://www.cnblogs.com/xiaoqi/p/18135929/sparse_retrieval) 介绍了sparse 稀疏检索,今天我们来看看如何建立一个工程化的系统来实现sparse vec的检索。 阅读全文
posted @ 2024-04-22 14:52 JadePeng 阅读(276) 评论(0) 推荐(0) 编辑
摘要: BGE M3-Embedding是BAAI开源的embedding模型,支持多语言,多粒度,多功能检索,本文介绍模型的相关信息 阅读全文
posted @ 2024-04-18 15:04 JadePeng 阅读(10870) 评论(0) 推荐(0) 编辑
摘要: 在处理大规模文本数据时,我们经常会遇到一些挑战,比如如何有效地表示和检索文档,当前主要有两个主要方法,传统的文本BM25检索,以及将文档映射到向量空间的向量检索。 BM25效果是有上限的,但是文本检索在一些场景仍具备较好的鲁棒性和可解释性,因此不可或缺,那么在NN模型一统天下的今天,是否能用NN模型来增强文本检索呢,答案是有的,也就是我们今天要说的sparse 稀疏检索。 传统的BM25文本检索其实就是典型的sparse稀疏检索,在BM25检索算法中,向量维度为整个词表,但是其中大部分为0,只有出现的关键词或子词(tokens)有值,其余的值都设为零。这种表示方法不仅节省了存储空间,而且提高了检索效率。 阅读全文
posted @ 2024-04-15 14:39 JadePeng 阅读(2174) 评论(1) 推荐(1) 编辑