[AI] 基于大模型的AI搜索引擎
概述:基于大模型的AI搜索引擎 ∈ 大模型智能体应用
AI搜索引擎的架构与组成
- 用户层:用户输入问题/关键词
- Agent层:
用户的输入(当前和历史) + 问题提问模板 => 标准的问题
...
-
记忆层:用户的历史对话
-
大模型层(Ollama + 私有大模型 | 公有大模型)
大模型层的优化技术方向:指令微调(Fine-Tuning) / RAG + 向量数据库
-
数据存储层:向量数据库 / 业务库(ES/MYSQL)
-
数据采集层(定时采集/不定时采集):搜索引擎 / 目标网站 / ...
SearXNG(多搜索引擎的匿名搜索框架)
网络爬虫
- 配置层:问题模板集 等
大模型智能体应用的关键技术
-
llm : deepseek / qwen2.5 / llama3 / ...
-
llm 私有化部署 : ollama
-
llm应用开发
- 终端层:小程序 / Teams应用
- Agent层
- 记忆层:记录所有对话
-
LLM应用编程框架: lang-chain
-
数据源
- 向量数据库:Faiss / Milvus
- 业务数据库: MySQL / Redis / ES / MongoDB / ...
- 搜索引擎 & 网络爬虫
开源AI搜索引擎
MemFree
- Intro
MemFree是一款开源的混合AI搜索引擎,可搜索个人知识库和互联网。
MemFree 是一个开源的混合AI搜索引擎,可以同时在你的个人知识库(如书签、笔记、文档等)和互联网中进行搜索。
- url
- demo
- slogan / 项目定位 : 混合AI搜索引擎 + AI页面生成器
- MemFree 是一个混合 AI 搜索引擎。
- 使用 MemFree,您可以立即从您的知识库和整个互联网中获得准确的答案。
- MemFree 也是一个 AI 页面生成器。
Memfree 使用最强大的 AI 模型 - Claude 3.5 Sonnet 和最流行的前端框架 - React + Tailwind + Shadcn UI,在几秒钟内为您生成生产就绪的 UI 页面。
https://pagegen.ai
- 技术栈
- AI 模型 : Claude 3.5 Sonnet
- 前端框架 : React + Tailwind + Shadcn UI
- MemFree Hybrid AI 搜索功能
MemFree 配备了强大的功能,可满足各种搜索和生产力需求:
- 🤖 多种 AI 模型:集成 ChatGPT、Claude 和 Gemini,以实现多种 AI 功能。
- 🌐 支持多个搜索引擎: 与 Google、Exa 和 Vector 配合使用。
- 🖼️ 多种搜索输入格式:文本、图像、文件和网页,特别是它支持多图像搜索、比较、汇总和分析。
- 📊 多种结果呈现方法: 文本、思维导图、图像和视频。
- 📄 本地文件格式兼容性: 支持文本、PDF、Docx、PPTX 和 Markdown 文件。
- 🔄 跨设备同步:在多个设备之间保存和同步搜索历史记录。
- 🌍 多语言支持:提供英语、中文、德语、法语、西班牙语、日语和阿拉伯语版本。
- 🔗 Chrome 书签同步:一键同步和索引。
- 📤 结果共享:轻松共享您的搜索结果。
- 🔍 上下文连续搜索:根据上下文无缝搜索。
- ⚙️ 自动 Web 搜索决策:自动确定何时执行 Internet 搜索。
- MemFree AI UI 生成器功能
- 🖥️ 实时 UI 预览 : 即时渲染和预览生成的 UI
- 🔍 AI 驱动的内容搜索 : 使用我们先进的 AI 搜索功能,通过相关内容丰富您的 UI
- 🖼 图像驱动的 UI 生成 :创建与您的参考图像紧密匹配的 UI 组件和页面
- 📄 文件到页面生成 : 通过 AI 解析和 AI 摘要将任何文件内容转换为结构精美的网页
- ✏️ 代码编辑器集成 : 使用类似 VSCode 的编辑功能编辑和优化生成的代码,并完成语法高亮和自动完成
- ✨ 动画支持:使用内置动画效果创建引人入胜的网页,通过平滑的过渡和动态元素使您的内容栩栩如生
- ⚛️ React + TailWind + Shadcn UI 集成:使用最流行的前端堆栈:React、TailWind 和 Shadcn UI 利用 AI 生成的代码
- 🚀 一键式 UI 发布 : 只需单击一下即可立即将您的 UI 发布并共享到 Web
- 📱 响应式代码和预览 : 在各种设备上实时预览您的 UI,确保完美适应所有屏幕尺寸
- 🌓 深色模式代码和预览 : 通过内置的深色模式支持轻松生成 AI 驱动的 UI 代码,让您可以立即预览浅色和深色模式
- 📸 UI 屏幕截图导出 : 轻松将您的 UI 设计导出并共享为高质量的屏幕截图,以实现无缝协作
- 🛠️ 智能纠错 : 虽然 MemFree 的高级 AI 模型和复杂的代码规则力求完美,但偶尔可能会出现错误。我们的智能纠错功能让您只需单击一下即可立即修复任何问题
- 项目的价值
- 高效的知识管理:MemFree 消除了手动组织笔记、书签和文档的需要。当您需要信息时,只需在 MemFree 中搜索即可快速找到相关答案,从而释放您的内存并提高工作效率。
- 节省时间的 AI 摘要:MemFree 使用 AI 立即总结网页和知识库中的最佳内容,从而节省宝贵的时间,而不是点击多个 Google 搜索结果。
- 具有成本效益的解决方案:避免多次订阅 ChatGPT Plus、Claude Pro 和 Gemini Advanced 等服务。MemFree 集成了他们的功能,大大降低了每月成本。
- UI 页面创建速度提高 100 倍: 在几秒钟内将文本或图像转换为令人惊叹的生产就绪代码,在创建时可视化您的设计,无缝发布您的页面。
- MemFree Hybrid AI 搜索工作流程
- RoadMap
MindSearch
-
Slogan / 项目定位: 模仿人类思维激发深度人工智能搜索
-
Intro
- MindSearch 是一个模拟人类思维的开源深度 AI 搜索引擎框架。
- MindSearch是一个开源的AI搜索引擎框架,具备类似Perplexity.ai Pro的性能。
用户可以通过使用闭源LLMs(如GPT、Claude)或开源LLMs(如InternLM2.5-7b-chat)来简单地部署自己风格的搜索引擎。
- 主要特点:
- 全面提问支持:MindSearch旨在解决生活中的各种问题,并使用网络知识进行回答。
- 深入的知识发现:通过浏览数百个网页,MindSearch提供更深、更广泛的知识基础答案。
- 详细解决路径:MindSearch公开所有细节,让用户可以查看所有内容,从而大大提高最终回答的可信度和可用性。
- 优化的UI体验:提供了包括React、Gradio、Streamlit和终端在内的各种接口,用户可以根据需要选择任何一种。
- 动态图构建过程:MindSearch将用户查询分解为图中的原子子问题节点,并根据WebSearcher的搜索结果逐步扩展图。
- 技术栈
- 支持的搜索引擎:DuckDuckGoSearch / BingSearch / BraveSearch / GoogleSearch / TencentSearch
- 前端框架: React /
- Web 服务端框架: Gradio / Streamlit
Gradio
是一个用于快速构建机器学习模型的交互式Web应用的Python库,它主要是用在简化模型的演示和测试过程,通过一些简单的代码和组件布局,而不需要精通 HTML、CSS 或 Javascript 等,就能让开发者能够快速搭建起一个可视化的界面。- https://www.gradio.app
Streamlit
是一个用于机器学习、数据可视化的 Python 框架,它能几行代码就构建出一个精美的在线 app 应用。相比于Gradio,能展示更多的功能
- URL
- url
- demo
Sensei Search: AI搜索引擎
- Intro
Sensei Search 是一款基于人工智能的问答引擎,旨在为用户提供快速、准确的信息查询服务;支持本地和云端运行。
它利用开源的大型语言模型 (LLM) 来生成回答,并结合多种搜索引擎和数据库以提升搜索效果。
- 智能问答:通过先进的 AI 技术,Sensei Search 能够理解用户的查询并提供相应的答案。
- 支持多种模式:用户可以选择光亮模式或黑暗模式,以适应不同的视觉体验。
- 灵活的技术架构:系统基于 Next.js 和 FastAPI 构建,使用多种开源 LLMs,如 Command-R、Qwen-2 和 GPT-3.5-turbo,支持高效的数据处理和响应生成。
- url
- 技术栈
Sensei Search 采用以下技术构建:
- 前端:Next.js、Tailwind CSS
- 后端:FastAPI、OpenAI 客户端
- 大模型:Command-R、Qwen-2-72b-instruct、WizardLM-2 8x22B、Claude Haiku、GPT-3.5-turbo
- 搜索:SearxNG、Bing
- 内存:Redis
- 部署:AWS、Paka
- 参考文献
OpenPerPlex
- Intro
- OpenPerPlex是一个使用最新技术的开源AI搜索引擎,提供强大的互联网搜索功能。
- OpenPerPlex 是一个开源的AI搜索引擎,利用先进的技术提供网络搜索功能。
- 技术栈
- 使用 Cohere 和 semantic-chunkers 库进行语义分块
https://github.com/aurelio-labs/semantic-chunkers/blob/main/semantic_chunkers/chunkers/statistical.py- 使用 JINA API 对搜索结果进行重新排序
- 集成
- 使用
Groq
作为推理引擎- 支持 Llama 3 70B 模型
- URL
OpenSearch GPT
- Intro
- OpenSearch GPT是一款能够根据用户兴趣个性化学习的AI搜索引擎。
- OpenSearch GPT 是一款个性化的人工智能搜索引擎,它在用户浏览网络时学习用户的兴趣和偏好。
与 Perplexity 或 SearchGPT 类似,OpenSearch GPT 专注于为每个用户提供个性化的搜索结果。
- 功能
- 个性化搜索:OpenSearch GPT 提供个性化的搜索结果,使用户能够快速找到与自己兴趣相关的信息。
- 信息检索和知识管理:通过自动记忆功能,帮助用户管理和检索信息,适用于研究和学习。
- 动态兴趣学习:随着用户的浏览活动,AI 不断更新和优化用户的兴趣模型,使推荐结果更加精准。
- 浏览体验优化:
整合多种先进技术框架,提供流畅、直观的用户界面体验。通过这些场景,OpenSearch GPT 不仅提升了搜索的效率和准确性,也改善了用户的整体浏览体验。
- URL
LangChain-SearXNG
- url
other url
TurboSeek
- Intro
- TurboSeek 是一个由 Together.ai 提供支持的开源人工智能搜索引擎。
- TurboSeek 是一个开源的人工智能搜索引擎,由 Together.ai 提供技术支持。
- 它采用多种先进的技术,结合了多个大语言模型(如 Mixtral 8x7B 和 Llama-3),以及 Bing 搜索API来实现智能问答和信息检索。
- TurboSeek 的开发灵感来源于类似的智能搜索引擎,如 Perplexity、You.com 和 Lepton search。
这样,TurboSeek 既能为普通用户提供便捷的智能问答服务,也为开发者提供了一个强大的平台进行二次开发和定制。
- URL
Perplexica
- Inro
开放源码的AI驱动搜索引擎,提供准确且最新的搜索结果
Perplexica 是一个开源的AI驱动搜索引擎,能够深入互联网寻找答案。
灵感来自Perplexity AI,Perplexica不仅进行网络搜索,还能理解用户的问题。
它利用先进的机器学习算法如相似度搜索和嵌入技术来优化搜索结果,并提供带有引文的清晰答案。
使用SearxNG确保信息的实时性和开放性,且不影响用户隐私。
- URL
Farfalle
- Inro
- Farfalle 是一个支持本地和云端模型的开源AI搜索引擎
- Farfalle 是一个开源的、由人工智能驱动的搜索引擎。
- 这个工具的核心功能是利用本地大型语言模型(LLM)或云端模型来回答问题和进行搜索。
- 能够运行本地的LLM,如llama3、gemma、mistral,也支持使用云端模型,如Groq/Llama3、OpenAI/gpt4-o。
- 既可以在本地运行,也可以通过云端进行部署。
- URL
X 参考文献
本文链接: https://www.cnblogs.com/johnnyzen
关于博文:评论和私信会在第一时间回复,或直接私信我。
版权声明:本博客所有文章除特别声明外,均采用 BY-NC-SA 许可协议。转载请注明出处!
日常交流:大数据与软件开发-QQ交流群: 774386015 【入群二维码】参见左下角。您的支持、鼓励是博主技术写作的重要动力!