一些基于LLM可以进行web 检索的开源工具

简单记录下，目前不少内部都会使用到langchain（毕竟提供了不少现在方便的工具包装），同时对于web 内容处理很多也会选择基于无头浏览器模式，对于html 内容为了方便llm 处理好多框架会优先转换为markdown 格式的，对于长内容同时也会进行chunk 拆分，规避大模型上下文限制问题

说明

目前对于web 内容检索处理上，选择基于现成的搜索api 的也比较多，此类支持搜索的api 服务相比传统搜索引擎强大不少，如果需要自己集成一些开源的searxng 是一个不错的选择，包含了rest api 可以方便使用

参考资料

https://github.com/unclecode/crawl4ai
https://github.com/ScrapeGraphAI/Scrapegraph-ai
https://github.com/mendableai/firecrawl
https://github.com/crewAIInc/crewAI
https://github.com/trancethehuman/entities-extraction-web-scraper
https://docs.searxng.org/dev/search_api.html
https://github.com/searxng/searxng

posted on 2024-09-05 08:00 荣锋亮阅读(430) 评论(0) 收藏举报

刷新页面返回顶部

导航

公告