deephub

2024年7月13日

持续学习中避免灾难性遗忘的Elastic Weight Consolidation Loss数学原理及代码实现

摘要：训练人工神经网络最重要的挑战之一是灾难性遗忘。神经网络的灾难性遗忘（catastrophic forgetting）是指在神经网络学习新任务时，可能会忘记之前学习的任务。这种现象特别常见于传统的反向传播算法和深度学习模型中。主要原因是网络在学习新数据时，会调整权重以适应新任务，这可能会导致之前学到的阅读全文

posted @ 2024-07-13 11:33 deephub 阅读(74) 评论(0) 推荐(0) 编辑

2024年7月12日

Lookback Lens：用注意力图检测和减轻llm的幻觉

摘要：在总结文章或回答给定段落的问题时，大语言模型可能会产生幻觉，并会根据给定的上下文回答不准确或未经证实的细节，这也被称为情境幻觉。为了解决这个问题，这篇论文的作者提出了一个简单的幻觉检测模型，其输入特征由上下文的注意力权重与新生成的令牌(每个注意头)的比例给出。它被称为回看或基于回看比率的检测器。该阅读全文

posted @ 2024-07-12 11:26 deephub 阅读(14) 评论(0) 推荐(0) 编辑

2024年7月11日

LLM代理应用实战：构建Plotly数据可视化代理

摘要：如果你尝试过像ChatGPT这样的LLM，就会知道它们几乎可以为任何语言或包生成代码。但是仅仅依靠LLM是有局限的。对于数据可视化的问题我们需要提供一下的内容描述数据:模型本身并不知道数据集的细节，比如列名和行细节。手动提供这些信息可能很麻烦，特别是当数据集变得更大时。如果没有这个上下文，LLM可阅读全文

posted @ 2024-07-11 10:50 deephub 阅读(30) 评论(0) 推荐(0) 编辑

2024年7月10日

统计学入门：时间序列分析基础知识详解

摘要：时间序列分析中包含了许多复杂的数学公式，它们往往难以留存于记忆之中。为了更好地掌握这些内容，本文将整理并总结时间序列分析中的一些核心概念，如自协方差、自相关和平稳性等，并通过Python实现和图形化展示这些概念，使其更加直观易懂。希望通过这篇文章帮助大家更清楚地理解时间序列分析的基础框架和关键点。阅读全文

posted @ 2024-07-10 11:16 deephub 阅读(56) 评论(0) 推荐(0) 编辑

2024年7月9日

11个提升Python列表编码效率的高级技巧

摘要： Python中关于列表的一些很酷的技巧 https://avoid.overfit.cn/post/8b536231aae54d899b519b4474adc2cb 阅读全文

posted @ 2024-07-09 10:49 deephub 阅读(4) 评论(0) 推荐(0) 编辑

2024年7月8日

LLM推理引擎怎么选？TensorRT vs vLLM vs LMDeploy vs MLC-LLM

摘要： LLM擅长文本生成应用程序，如聊天和代码完成模型，能够高度理解和流畅。但是它们的大尺寸也给推理带来了挑战。有很多个框架和包可以优化LLM推理和服务，所以在本文中我将整理一些常用的推理引擎并进行比较。 https://avoid.overfit.cn/post/33f6420c91e74c0eb8d6 阅读全文

posted @ 2024-07-08 10:49 deephub 阅读(240) 评论(0) 推荐(0) 编辑

2024年7月7日

PyTorch中的多进程并行处理

摘要： PyTorch是一个流行的深度学习框架，一般情况下使用单个GPU进行计算时是十分方便的。但是当涉及到处理大规模数据和并行处理时，需要利用多个GPU。这时PyTorch就显得不那么方便，所以这篇文章我们将介绍如何利用torch.multiprocessing模块，在PyTorch中实现高效的多进程处理阅读全文

posted @ 2024-07-07 10:42 deephub 阅读(69) 评论(0) 推荐(0) 编辑

2024年7月6日

2024年6月后2周重要的大语言模型论文总结：LLM进展、微调、推理和对齐

摘要：本文总结了2024年6月后两周发表的一些最重要的大语言模型论文。这些论文涵盖了塑造下一代语言模型的各种主题，从模型优化和缩放到推理、基准测试和增强性能。 LLM进展与基准 1、 BigCodeBench: Benchmarking Code Generation with Diverse Funct 阅读全文

posted @ 2024-07-06 11:44 deephub 阅读(58) 评论(0) 推荐(0) 编辑

2024年7月5日

RouteLLM：高效LLM路由框架，可以动态选择优化成本与响应质量的平衡

摘要：该论文提出了一个新的框架，用于在强模型和弱模型之间进行查询路由选择。通过学习用户偏好数据，预测强模型获胜的概率，并根据成本阈值来决定使用哪种模型处理查询。该研究主要应用于大规模语言模型（LLMs）的实际部署中，通过智能路由在保证响应质量的前提下显著降低成本。通过创新的路由框架和算法，有效地在强模阅读全文

posted @ 2024-07-05 10:54 deephub 阅读(107) 评论(0) 推荐(0) 编辑

2024年7月4日

字符串相似度算法完全指南：编辑、令牌与序列三类算法的全面解析与深入分析

摘要：在自然语言处理领域，人们经常需要比较字符串，这些字符串可能是单词、句子、段落甚至是整个文档。如何快速判断两个单词或句子是否相似，或者相似度是好还是差。这类似于我们使用手机打错一个词，但手机会建议正确的词来修正它，那么这种如何判断字符串相似度呢？本文将详细介绍这个问题。字符串相似度当我们有两个数字阅读全文

posted @ 2024-07-04 11:25 deephub 阅读(60) 评论(0) 推荐(0) 编辑

overfit深度学习

公告