深度学习 - 随笔分类 - 深度学习机器

Qwen2.5-VL：更强大的多模态大模型｜附实测结果

摘要：模型更新简述几天前，通义千问更新了最新的多模态大模型Qwen2.5-VL，拥有包含 3B、7B 和 72B 在内的 3 个模型尺寸，同时完全开源，可在huggingface和modelscope下载到所有模型权重。 1. 更灵活的时空维度处理 ● 空间维度上，动态地将不同尺寸的图像转换为不同长度的阅读全文

posted @ 2025-02-01 11:11 深度学习机器阅读(3945) 评论(0) 推荐(0)

热门开源Ai搜索引擎对比分析

摘要：汇总 lepton ● 项目地址：https://github.com/leptonai/search_with_lepton ● 简介：比较早期的Ai Search，由贾扬清团队项目开源，整个项目含前后端在内仅需不到500行代码。 ● 搜索引擎：支持两种默认搜索引擎：Bing和Google。 ● 阅读全文

posted @ 2025-01-16 22:43 深度学习机器阅读(1804) 评论(0) 推荐(0)

GitHub Copilot免费上线！快速上手指南与功能解析

摘要：GitHub Copilot在12月宣布免费订阅，不再限制学生和开源项目的维护者了，对于习惯白嫖的开发者来说无疑多了一个选择。价格和功能免费版目前可以选择Claude 3.5 Sonnet或GPT-4o模型，每月可以调用 2000 次生成和补全代码，以及 50 次聊天信息。快速开始注册一个G 阅读全文

posted @ 2024-12-30 20:18 深度学习机器阅读(427) 评论(0) 推荐(0)

LangGraph：基于图结构的大模型智能体开发框架

摘要：LangGraph 是LangChainAI开发的一个工具库，用于创建代理和多代理智能体工作流。它提供了以下核心优势：周期、可控性和持久性，对于Agent智能体开发者来说无疑减少了许多工作量。以下篇幅仅从本人角度阐述LangGraph在开发过程中的亮点以及使用方法。基本介绍 LangGraph的S 阅读全文

posted @ 2024-12-25 21:56 深度学习机器阅读(10566) 评论(0) 推荐(0)

轻量高效的知识图谱RAG系统：LightRAG

摘要：LightRAG是港大Data Lab提出一种基于知识图谱结构的RAG方案，相比GraphRAG具有更快更经济的特点。架构 1 索引阶段：对文档进行切分处理，提取其中的实体和边分别进行向量化处理，存放在向量知识库 2 检索阶段：对用于输入分别提取局部和全局关键词，分别用于检索向量知识库中的实体和边阅读全文

posted @ 2024-12-17 22:30 深度学习机器阅读(2227) 评论(0) 推荐(0)

Chunkr: 在线PDF文档解析与OCR工具

摘要：介绍 1 版面分割模型这部分属于另一个项目（pdf-document-layout-analysis）的内容，可以移步查看具体模型的介绍和训练过程。 1.1 机器学习模型基于LIGHTGBM算法，并且只需要使用CPU资源，因此对硬件要求不高，速度快，但是只能处理文字类型的PDF。 1.2 VGT 阅读全文

posted @ 2024-11-18 21:55 深度学习机器阅读(370) 评论(0) 推荐(0)

PGML：向量数据库内一体化的RAG框架

摘要：架构总览特性： ● 支持数据库中进行的ai和ml分析 ● 支持gpu加速 ● 集成多种开源llm和rag框架 ● 支持传统的机器学习模型使用方法云端试用官方提供了云服务试用，根据要求注册账号即可：注册地址本地部署官方提供了docker镜像，执行如下命令即可安装 docker run \ 阅读全文

posted @ 2024-11-18 21:52 深度学习机器阅读(289) 评论(0) 推荐(0)

一文梳理RAG（检索增强生成）的现状与挑战

摘要：一 RAG简介大模型相较于过去的语言模型具备更加强大的能力，但在实际应用中，例如在准确性、知识更新速度和答案透明度方面，仍存在不少问题，比如典型的幻觉现象。因此，检索增强生成 (Retrieval-Augmented Generation, RAG) 被当作于大模型应用开发的一种新范式。RAG是指阅读全文

posted @ 2024-09-09 21:54 深度学习机器阅读(587) 评论(0) 推荐(0)

大模型RAG应用开发之PDF解析工具对比

摘要：一汇总类型名称地址 OCR 提取表格内容保留文本顺序提取图片保存成md格式其他特性传统PDF解析库 pymupdf https://github.com/pymupdf/PyMuPDF ❌ ✔️ ✔️ ✔️ ❌ ● 表格提取● 自定义字体传统PDF解析库 pdfminer htt 阅读全文

posted @ 2024-08-27 22:24 深度学习机器阅读(7342) 评论(0) 推荐(0)

Magic-PDF：端到端PDF文档解析神器构建高质量RAG必备！

摘要：项目结构流程解析预处理的作用是判断文档内容是否需要进行OCR识别，如果是普通可编辑的PDF文档，则使用PyMuPDF库提取元信息。模型层除了常规的OCR、版面结构分析外，还有公式检测模型，可提取公式内容，用于后续把公式转化为Latex格式。但是目前暂无表格内容识别，官方预计1个月之内会放出。阅读全文

posted @ 2024-07-31 22:31 深度学习机器阅读(1694) 评论(0) 推荐(0)

RAG文档解析利器：Deepdoc

posted @ 2024-07-29 22:53 深度学习机器阅读(1932) 评论(0) 推荐(0)

DB-GPT：LLM应用的集大成者

摘要：整体架构架构解读可以看到，DB-GPT把架构抽象为7层，自下而上分别为：运行环境：支持本地/云端&单机/分布式等部署方式。顺便一提，RAY是蚂蚁深度参与的一个开源项目，所以对RAY功能的支持应该非常完善。训练层：由子项目DB-GPT-Hub提供。以LLM为基，包含多种数据集和微调方法的微调框阅读全文

posted @ 2024-07-22 21:23 深度学习机器阅读(326) 评论(0) 推荐(0)

热门开源Text2SQL框架

摘要：Chat2DB 项目地址：https://github.com/chat2db/Chat2DB 简介：Chat2DB是一个通用的SQL客户端和数据分析工具，能够辅助生成SQL，同时支持对话式的数据分析功能，提供了网页、客户端2种使用方式，它支持几乎所有流行的数据库，并且chat2DB还开源了7B的S 阅读全文

posted @ 2024-06-26 23:25 深度学习机器阅读(1144) 评论(0) 推荐(0)

【高级RAG技巧】使用二阶段检索器平衡检索的效率和精度

摘要：一传统方法之前的文章已经介绍过向量数据库在RAG（Retrieval Augmented Generative）中的应用，本文将会讨论另一个重要的工具-Embedding模型。一般来说，构建生产环境下的RAG系统是直接使用Embedding模型对用户输入的Query进行向量化表示，并且从已经构阅读全文

posted @ 2024-04-26 15:25 深度学习机器阅读(473) 评论(0) 推荐(0)

【高级RAG技巧】在大模型知识库问答中增强文档分割与表格提取

摘要：前言文档分割是一项具有挑战性的任务，它是任何知识库问答系统的基础。高质量的文档分割结果对于显著提升问答效果至关重要，但是目前大多数开源库的处理能力有限。这些开源的库或者方法缺点大致可以罗列如下：只能处理文本，无法提取表格中的内容缺乏有效的分割策略，要么是一整个文档全部提取，要么是词粒度的获取阅读全文

posted @ 2024-04-18 21:35 深度学习机器阅读(3068) 评论(1) 推荐(0)

大语言模型常见的文本切分方式整理汇总

摘要：整理本文整理了一些简单的文本切分方式，适用于大语言模型经典应用RAG或相似场景。一般切分如果不借助任何包，很容易想到如下切分方案： text = "我是一个名为 ChatGLM3-6B 的人工智能助手，是基于清华大学 KEG 实验室和智谱 AI 公司于 2023 年共同训练的语言模型开发的。我阅读全文

posted @ 2024-03-06 23:05 深度学习机器阅读(689) 评论(0) 推荐(0)

大语言模型常见的文本切分之语义嵌入

摘要：语料准备选择了一篇新闻稿，有比较明显的段落区分，每个段落由若干句子构成，可用于验证切分效果。 # 节气释义小寒，是二十四节气中的第二十三个节气，太阳到达黄经285度时开始。《月令七十二候集解》中说：“十二月节，月初寒尚小，故云。月半则大矣。”冷气积久而寒，小寒是天气寒冷但还没有到极点的意思。阅读全文

posted @ 2024-03-06 23:03 深度学习机器阅读(110) 评论(0) 推荐(0)

deeplearningmachine

随笔分类 - 深度学习

公告