deephub

2025年6月22日

摘要： Chonkie是一个专为大语言模型（LLM）应用场景设计的轻量级文本分块处理库，提供高效的文本分割和管理解决方案。该库采用最小依赖设计理念，特别适用于现实世界的自然语言处理管道。本文将详细介绍Chonkie的核心功能、设计理念以及五种主要的文本分块策略。 Chonkie的核心理念是简化文档分块处理流阅读全文

posted @ 2025-06-22 10:49 deephub 阅读(52) 评论(0) 推荐(0)

2025年6月21日

机器学习异常检测实战：用Isolation Forest快速构建无标签异常检测系统

摘要：无监督异常检测作为机器学习领域的重要分支，专门用于在缺乏标记数据的环境中识别异常事件。本文深入探讨异常检测技术的理论基础与实践应用，通过Isolation Forest算法进行异常检测，并结合LightGBM作为主分类器，构建完整的欺诈检测系统。文章详细阐述了从无监督异常检测到人工反馈循环的完整工作阅读全文

posted @ 2025-06-21 09:54 deephub 阅读(43) 评论(0) 推荐(0)

2025年6月20日

从零复现Google Veo 3：从数据预处理到视频生成的完整Python代码实现指南

摘要： Google Veo 3作为当前最先进的文本到视频生成系统，能够根据文本提示生成高质量、高分辨率的视频内容并同步生成音频。该系统在性能上已超越OpenAI SORA等同类模型，代表了视频生成领域的最新技术水平。 Google最近发布了Veo 3技术报告和模型规格说明，详细阐述了系统架构、训练流程等核阅读全文

posted @ 2025-06-20 14:15 deephub 阅读(121) 评论(0) 推荐(0)

2025年6月19日

Python构建MCP服务器完整教程：5步打造专属AI工具调用系统

摘要：模型控制协议（Model Control Protocol, MCP）是一种专为实现AI代理与工具解耦而设计的通信协议，为AI驱动应用程序的开发提供了高度的灵活性和模块化架构。通过MCP服务器，AI代理能够动态发现并调用各种工具来响应用户请求。本文将详细介绍MCP服务器的构建过程，包括工具函数的注册阅读全文

posted @ 2025-06-19 10:30 deephub 阅读(268) 评论(0) 推荐(0)

2025年6月18日

Adaptive-k 检索：RAG 系统中自适应上下文长度选择的新方法

摘要：本文介绍 Adaptive-k 检索技术，这是一种通过相似性分布分析动态确定最优上下文规模的即插即用方法，该技术在显著降低 token 消耗的同时实现了检索增强生成系统的性能提升。在检索增强生成（RAG）技术快速发展的当前阶段，一个核心问题始终困扰着研究人员和工程师：如何确定最优的上下文长度？上阅读全文

posted @ 2025-06-18 10:43 deephub 阅读(31) 评论(0) 推荐(0)

2025年6月17日

基于时间图神经网络多的产品需求预测：跨序列依赖性建模实战指南

摘要：本文从理论基础出发深入探讨图神经网络（Graph Neural Networks, GNNs）及以供应链需求预测为应用场景在多产品日销售量预测中的应用。在相关SKU构成的复杂网络中，单一产品的销售波动往往会对其他产品产生连锁影响。本文展示了如何通过学习稀疏影响图、应用图卷积融合邻居节点信息，并结合时阅读全文

posted @ 2025-06-17 10:36 deephub 阅读(50) 评论(0) 推荐(0)

2025年6月16日

解决RAG检索瓶颈：RAPL线图转换让知识图谱检索准确率提升40%

摘要：本文深入探讨RAPL（Retrieval-Augmented Path Learning）框架，这是一个创新的人工智能架构，通过线图转换和合理化监督技术，从根本上改进了知识图谱环境下的检索增强生成系统。该框架通过构建高效且可泛化的检索器，显著提升了大型语言模型在知识问答任务中的准确性和可解释性。当阅读全文

posted @ 2025-06-16 09:59 deephub 阅读(64) 评论(0) 推荐(0)

2025年6月15日

ProRL：基于长期强化学习让1.5B小模型推理能力超越7B大模型

摘要：这个研究挑战了强化学习仅能放大现有模型输出能力的传统观点，通过实验证明长期强化学习训练（ProRL）能够使基础模型发现全新的推理策略。ProRL方法体系包含KL散度控制机制、参考策略重置技术以及多元化任务训练集。 ProRL核心方法论基于GRPO的强化学习算法 ProRL采用组相对策略优化（Gro 阅读全文

posted @ 2025-06-15 10:26 deephub 阅读(40) 评论(0) 推荐(0)

2025年6月14日

PyTorch + MLFlow 实战：从零构建可追踪的深度学习模型训练系统

摘要：本文通过使用 Kaggle 数据集训练情感分析模型的实例，详细演示了如何将 PyTorch 与 MLFlow 进行深度集成，实现完整的实验跟踪、模型记录和结果可复现性管理。文章将系统性地介绍训练代码的核心组件，展示指标和工件的记录方法，并提供 MLFlow UI 的详细界面截图。无论您是初次接触阅读全文

posted @ 2025-06-14 08:53 deephub 阅读(35) 评论(0) 推荐(0)

2025年6月13日

Python 3D数据可视化：7个实用案例助你快速上手

摘要：在多变量数据分析中，涉及三个变量的数据可视化往往需要采用三维绘图技术，以便更全面地理解和分析在二维表示中难以清晰呈现的复杂关系和数据模式。 Python 的 Matplotlib 库通过其 mpl_toolkits.mplot3d 工具包，为复杂三维可视化的生成提供了强大的功能支持。构建三维图形的基阅读全文

posted @ 2025-06-13 14:01 deephub 阅读(41) 评论(0) 推荐(0)

overfit深度学习

公告