RAG - 随笔分类 - 深度学习机器

Qwen2.5-VL：更强大的多模态大模型｜附实测结果

摘要：模型更新简述几天前，通义千问更新了最新的多模态大模型Qwen2.5-VL，拥有包含 3B、7B 和 72B 在内的 3 个模型尺寸，同时完全开源，可在huggingface和modelscope下载到所有模型权重。 1. 更灵活的时空维度处理 ● 空间维度上，动态地将不同尺寸的图像转换为不同长度的阅读全文

posted @ 2025-02-01 11:11 深度学习机器阅读(3932) 评论(0) 推荐(0)

热门开源Ai搜索引擎对比分析

摘要：汇总 lepton ● 项目地址：https://github.com/leptonai/search_with_lepton ● 简介：比较早期的Ai Search，由贾扬清团队项目开源，整个项目含前后端在内仅需不到500行代码。 ● 搜索引擎：支持两种默认搜索引擎：Bing和Google。 ● 阅读全文

posted @ 2025-01-16 22:43 深度学习机器阅读(1791) 评论(0) 推荐(0)

仅需一个插件让关系型数据库实现图数据存储与检索

摘要：简介 Apache AGE是一个PostgreSQL数据库的扩展插件，使得在关系型数据库中也可以使用openCypher查询语言进行图查询。有了该插件，可以在PostgreSQL数据库中同时实现关键字检索、向量检索、图检索，仅需一个数据库即可实现复杂RAG的各种存储和检索需求。安装 Docker安阅读全文

posted @ 2025-01-13 22:31 深度学习机器阅读(451) 评论(0) 推荐(0)

GitHub Copilot免费上线！快速上手指南与功能解析

摘要：GitHub Copilot在12月宣布免费订阅，不再限制学生和开源项目的维护者了，对于习惯白嫖的开发者来说无疑多了一个选择。价格和功能免费版目前可以选择Claude 3.5 Sonnet或GPT-4o模型，每月可以调用 2000 次生成和补全代码，以及 50 次聊天信息。快速开始注册一个G 阅读全文

posted @ 2024-12-30 20:18 深度学习机器阅读(424) 评论(0) 推荐(0)

LangGraph：基于图结构的大模型智能体开发框架

摘要：LangGraph 是LangChainAI开发的一个工具库，用于创建代理和多代理智能体工作流。它提供了以下核心优势：周期、可控性和持久性，对于Agent智能体开发者来说无疑减少了许多工作量。以下篇幅仅从本人角度阐述LangGraph在开发过程中的亮点以及使用方法。基本介绍 LangGraph的S 阅读全文

posted @ 2024-12-25 21:56 深度学习机器阅读(10556) 评论(0) 推荐(0)

轻量高效的知识图谱RAG系统：LightRAG

摘要：LightRAG是港大Data Lab提出一种基于知识图谱结构的RAG方案，相比GraphRAG具有更快更经济的特点。架构 1 索引阶段：对文档进行切分处理，提取其中的实体和边分别进行向量化处理，存放在向量知识库 2 检索阶段：对用于输入分别提取局部和全局关键词，分别用于检索向量知识库中的实体和边阅读全文

posted @ 2024-12-17 22:30 深度学习机器阅读(2223) 评论(0) 推荐(0)

PostgreSQL 数据库向量化的核心：pgvector

摘要：pgvector介绍 pgvector是一款开源的向量搜索引擎，除了具备所有Postgres数据库的特性外，最主要的特点是能在Postgres数据库存储和检索向量数据，支持向量的精确检索和模糊检索。向量格式除了传统embedding模型的单精度浮点数外，还支持半精度浮点数，二元向量或者稀疏向量。安阅读全文

posted @ 2024-11-24 10:11 深度学习机器阅读(2942) 评论(0) 推荐(0)

Chunkr: 在线PDF文档解析与OCR工具

摘要：介绍 1 版面分割模型这部分属于另一个项目（pdf-document-layout-analysis）的内容，可以移步查看具体模型的介绍和训练过程。 1.1 机器学习模型基于LIGHTGBM算法，并且只需要使用CPU资源，因此对硬件要求不高，速度快，但是只能处理文字类型的PDF。 1.2 VGT 阅读全文

posted @ 2024-11-18 21:55 深度学习机器阅读(369) 评论(0) 推荐(0)

PGML：向量数据库内一体化的RAG框架

摘要：架构总览特性： ● 支持数据库中进行的ai和ml分析 ● 支持gpu加速 ● 集成多种开源llm和rag框架 ● 支持传统的机器学习模型使用方法云端试用官方提供了云服务试用，根据要求注册账号即可：注册地址本地部署官方提供了docker镜像，执行如下命令即可安装 docker run \ 阅读全文

posted @ 2024-11-18 21:52 深度学习机器阅读(286) 评论(0) 推荐(0)

一文梳理RAG（检索增强生成）的现状与挑战

摘要：一 RAG简介大模型相较于过去的语言模型具备更加强大的能力，但在实际应用中，例如在准确性、知识更新速度和答案透明度方面，仍存在不少问题，比如典型的幻觉现象。因此，检索增强生成 (Retrieval-Augmented Generation, RAG) 被当作于大模型应用开发的一种新范式。RAG是指阅读全文

posted @ 2024-09-09 21:54 深度学习机器阅读(584) 评论(0) 推荐(0)

大模型RAG应用开发之PDF解析工具对比

摘要：一汇总类型名称地址 OCR 提取表格内容保留文本顺序提取图片保存成md格式其他特性传统PDF解析库 pymupdf https://github.com/pymupdf/PyMuPDF ❌ ✔️ ✔️ ✔️ ❌ ● 表格提取● 自定义字体传统PDF解析库 pdfminer htt 阅读全文

posted @ 2024-08-27 22:24 深度学习机器阅读(7329) 评论(0) 推荐(0)

Magic-PDF：端到端PDF文档解析神器构建高质量RAG必备！

摘要：项目结构流程解析预处理的作用是判断文档内容是否需要进行OCR识别，如果是普通可编辑的PDF文档，则使用PyMuPDF库提取元信息。模型层除了常规的OCR、版面结构分析外，还有公式检测模型，可提取公式内容，用于后续把公式转化为Latex格式。但是目前暂无表格内容识别，官方预计1个月之内会放出。阅读全文

posted @ 2024-07-31 22:31 深度学习机器阅读(1688) 评论(0) 推荐(0)

RAG文档解析利器：Deepdoc

posted @ 2024-07-29 22:53 深度学习机器阅读(1931) 评论(0) 推荐(0)

DB-GPT：LLM应用的集大成者

摘要：整体架构架构解读可以看到，DB-GPT把架构抽象为7层，自下而上分别为：运行环境：支持本地/云端&单机/分布式等部署方式。顺便一提，RAY是蚂蚁深度参与的一个开源项目，所以对RAY功能的支持应该非常完善。训练层：由子项目DB-GPT-Hub提供。以LLM为基，包含多种数据集和微调方法的微调框阅读全文

posted @ 2024-07-22 21:23 深度学习机器阅读(323) 评论(0) 推荐(0)

基于Sentence Transformer微调向量模型

摘要：Sentence Transformer库升级到了V3，其中对模型训练部分做了优化，使得模型训练和微调更加简单了，跟着官方教程走了一遍，顺利完成向量模型的微调，以下是对官方教程的精炼和总结。一所需组件使用Sentence Transformer库进行向量模型的微调需要如下的组件：数据数据: 阅读全文

posted @ 2024-07-07 16:10 深度学习机器阅读(750) 评论(0) 推荐(0)

热门开源Text2SQL框架

摘要：Chat2DB 项目地址：https://github.com/chat2db/Chat2DB 简介：Chat2DB是一个通用的SQL客户端和数据分析工具，能够辅助生成SQL，同时支持对话式的数据分析功能，提供了网页、客户端2种使用方式，它支持几乎所有流行的数据库，并且chat2DB还开源了7B的S 阅读全文

posted @ 2024-06-26 23:25 深度学习机器阅读(1144) 评论(0) 推荐(0)

开源RAG框架汇总

摘要：前言本文搜集了一些开源的基于LLM的RAG（Retrieval-Augmented Generation）框架，旨在吸纳业界最新的RAG应用方法与思路。如有错误或者意见可以提出，同时也欢迎大家把自己常用而这里未列出的框架贡献出来，感谢~ RAG应用框架 RAGFlow 项目地址：https://g 阅读全文

posted @ 2024-05-10 23:59 深度学习机器阅读(9911) 评论(0) 推荐(0)

【高级RAG技巧】使用二阶段检索器平衡检索的效率和精度

摘要：一传统方法之前的文章已经介绍过向量数据库在RAG（Retrieval Augmented Generative）中的应用，本文将会讨论另一个重要的工具-Embedding模型。一般来说，构建生产环境下的RAG系统是直接使用Embedding模型对用户输入的Query进行向量化表示，并且从已经构阅读全文

posted @ 2024-04-26 15:25 深度学习机器阅读(473) 评论(0) 推荐(0)

【高级RAG技巧】在大模型知识库问答中增强文档分割与表格提取

摘要：前言文档分割是一项具有挑战性的任务，它是任何知识库问答系统的基础。高质量的文档分割结果对于显著提升问答效果至关重要，但是目前大多数开源库的处理能力有限。这些开源的库或者方法缺点大致可以罗列如下：只能处理文本，无法提取表格中的内容缺乏有效的分割策略，要么是一整个文档全部提取，要么是词粒度的获取阅读全文

posted @ 2024-04-18 21:35 深度学习机器阅读(3068) 评论(1) 推荐(0)

向量数据库之Lancedb学习记录

摘要：简介 Lancedb是一个用于人工智能的开源矢量数据库，旨在存储、管理、查询和检索大规模多模式数据的嵌入。Lancedb的核心是用Rust编写的，并构建在Lance之上，专为高性能 ML 工作负载和快速随机访问而设计。快速开始安装 pip install lancedb 目前0.6.8需要pya 阅读全文

posted @ 2024-04-15 19:26 深度学习机器阅读(3806) 评论(0) 推荐(0)

deeplearningmachine

随笔分类 - RAG

公告