上一页 1 ··· 41 42 43 44 45 46 47 48 49 ··· 154 下一页
摘要: 大型语言模型在各个领域都展现出了卓越的性能,但其核心组件之一——softmax注意力机制在计算资源消耗方面存在显著局限性。本文将深入探讨如何通过替代方案实现线性时间复杂度,从而突破这一计算瓶颈。 注意力机制基础理论 本文假设读者已经熟悉ChatGPT、Claude等模型及其底层的transforme 阅读全文
posted @ 2024-12-31 10:45 deephub 阅读(65) 评论(0) 推荐(0)
摘要: Key-Value (KV)缓存已成为大语言模型(LLM)长文本处理的关键性能瓶颈。当前研究尚未充分关注解码阶段的优化,这一阶段具有同等重要性,因为: 1、对需要完整上下文的场景,预填充阶段的过度压缩会显著降低模型的推理理解能力 2、在长输出推理任务中存在重要特征的显著偏移现象 这篇论文提出SCOP 阅读全文
posted @ 2024-12-30 10:12 deephub 阅读(72) 评论(0) 推荐(0)
摘要: 近期Python生态系统发生了重要变化,特别是在包管理领域。Anaconda对其商业许可证政策进行了调整,要求大型非营利组织(员工超过200人)需要为使用其默认包仓库的每位用户获取商业许可。这一变化促使开发社区开始寻找更开放的解决方案,特别是考虑到Python本身及其大多数包都是开源的这一事实。 P 阅读全文
posted @ 2024-12-29 10:52 deephub 阅读(289) 评论(0) 推荐(0)
摘要: 面向信号处理的特征保持平滑技术 在数据分析领域,信号处理中的噪声问题始终是一个重要议题。无论是实验数据、金融时间序列还是其他形式的信号处理,噪声都会干扰目标模式和趋势的识别。尽管存在多种降噪方法,但在处理短时信号时,算法的性能往往比执行效率更为重要。在众多方法中Savitzky-Golay滤波器因其 阅读全文
posted @ 2024-12-28 10:18 deephub 阅读(211) 评论(0) 推荐(0)
摘要: 多维偏好分析(Multidimensional Preference Analysis, MPA)是一种在市场营销、心理学和公共政策等领域广泛应用的分析工具,用于研究多维度下的复杂偏好决策过程。在高维数据集中,当属性与偏好之间存在非线性关系或维度重叠时,偏好的理解和可视化呈现出显著的技术挑战。 本文 阅读全文
posted @ 2024-12-27 10:31 deephub 阅读(64) 评论(0) 推荐(0)
摘要: 大语言模型的指令遵循能力需要模型能够准确识别指令中的细微要求,并在输出中精确体现这些要求。现有方法通常采用偏好学习进行优化,在创建偏好对时直接从模型中采样多个独立响应。但是这种方法可能会引入与指令精确遵循无关的内容变化(例如,同一语义的不同表达方式),这干扰了模型学习识别能够改进指令遵循的关键差异。 阅读全文
posted @ 2024-12-26 10:02 deephub 阅读(53) 评论(0) 推荐(0)
摘要: 随着大型语言模型(LLMs)在AI应用领域持续发展,其计算成本也呈现显著上升趋势。数据分析表明,GPT-4的运行成本约为700美元/小时,2023年各企业在LLM推理方面的总支出超过50亿美元。这一挑战的核心在于注意力机制——该机制作为模型处理和关联信息的计算核心,同时也构成了主要的性能瓶颈。 Tu 阅读全文
posted @ 2024-12-25 10:36 deephub 阅读(80) 评论(0) 推荐(0)
摘要: BERT 发布于 2018 年(从人工智能发展速度来看已是遥远的过去),但它至今仍在广泛使用:实际上它目前是 HuggingFace hub 上下载量第二高的模型,月下载量超过 6800 万次,仅次于另一个针对检索任务优化的编码器模型。这源于其编码器架构在处理日常实际问题方面表现出色,例如检索(如用 阅读全文
posted @ 2024-12-24 10:48 deephub 阅读(202) 评论(0) 推荐(0)
摘要: 在Python开发过程中,调试是一项核心技能。无论是初级开发者还是资深工程师,掌握高效的调试技巧都能显著提升开发效率。本文将介绍10个实用的调试方法,帮助开发者更有效地定位和解决问题。 https://avoid.overfit.cn/post/dfc2c72df2164c7ebac1289e17e 阅读全文
posted @ 2024-12-23 09:40 deephub 阅读(38) 评论(0) 推荐(0)
摘要: 基于人类反馈的强化学习(RLHF)已成为大型语言模型(LLM)训练流程中的关键环节,并持续获得研究界的广泛关注。 本文将探讨RLHF技术,特别聚焦于直接偏好优化(Direct Preference Optimization, DPO)方法,并详细阐述了一项实验研究:通过DPO对GPT-2 124M模 阅读全文
posted @ 2024-12-22 10:15 deephub 阅读(115) 评论(0) 推荐(0)
上一页 1 ··· 41 42 43 44 45 46 47 48 49 ··· 154 下一页