Fork me on GitHub

07 2024 档案

摘要:RAG中的混合检索如下图: 为什么要混合搜索(multi-way recall)? 越来越多的人认为,仅仅依靠向量搜索,通常是密集向量,可能并不总是产生令人满意的结果。当用户的特定查询关键字与存储的数据不精确匹配时,这种限制就会变得明显。这是因为向量本身不能表示精确的语义信息:向量可以表示一个词、一 阅读全文
posted @ 2024-07-27 16:04 石头木 阅读(1611) 评论(0) 推荐(0) 编辑
摘要:项目:https://github.com/jiangnanboy/table_structure_recognition # 利用Swin-Unet(Swin Transformer Unet)实现对文档图片里表格结构的识别 ## 实现功能 - [x] 识别表格中的线条 - [ ] 结果转为exc 阅读全文
posted @ 2024-07-23 20:51 石头木 阅读(100) 评论(0) 推荐(0) 编辑
摘要:项目:https://github.com/jiangnanboy/movie_llm_agent 本项目利用chatglm6b实现一个中文版的简单电影问答功能,目的是探索llm agent与图数据库neo4j进行交互的能力,主要根据用户的意图与neo4j进行交互。 Tools agent使用几个t 阅读全文
posted @ 2024-07-22 20:34 石头木 阅读(72) 评论(0) 推荐(0) 编辑
摘要:项目:https://github.com/jiangnanboy/Image_KIE_LLM 模型: 去除背景: U2Net ocr: paddleocr KIE: Baichuan2 LLM 使用 main.py 在这里,OCR识别的文本和提示语将一起输入到LLM中提取关键信息。 结果展示 # 阅读全文
posted @ 2024-07-22 20:18 石头木 阅读(126) 评论(0) 推荐(0) 编辑
摘要:本项目收集大量的涉及政治、色情、辱骂、暴力违禁等敏感数据,据此微调roberta模型,根据模型对文本内容进行分类打分,进行检测审核; 针对业务场景下个性化的数据和需求,可自由定制审核模型的阈值参数,合适的策略配置将有效提升内容审核的召回率和精确率。 This project collects a l 阅读全文
posted @ 2024-07-01 19:42 石头木 阅读(76) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示