会员
周边
新闻
博问
闪存
众包
赞助商
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
deephub
overfit深度学习
博客园
首页
新随笔
联系
订阅
管理
上一页
1
···
37
38
39
40
41
42
43
44
45
···
150
下一页
2025年1月8日
面向强化学习的状态空间建模:RSSM的介绍和PyTorch实现
摘要: 循环状态空间模型(Recurrent State Space Models, RSSM)最初由 Danijar Hafer 等人在论文《Learning Latent Dynamics for Planning from Pixels》中提出。该模型在现代基于模型的强化学习(Model-Based
阅读全文
posted @ 2025-01-08 09:45 deephub
阅读(115)
评论(0)
推荐(0)
2025年1月7日
增强回归模型的可解释性:基于MCMC的混合建模与特征选择方法研究
摘要: 特征选择是一个识别数据集中最具相关性变量的过程,其主要目标是提升模型性能并降低系统复杂度。传统特征选择方法存在一定局限性。变量之间往往存在相互依存关系,移除某一变量可能会削弱其他变量的预测能力。 这种方法容易忽视某些变量只有在与其他变量组合时才能提供有效信息的情况。这种局限性可能导致模型性能次优。为
阅读全文
posted @ 2025-01-07 11:47 deephub
阅读(75)
评论(0)
推荐(0)
2025年1月6日
特征时序化建模:基于特征缓慢变化维度历史追踪的机器学习模型性能优化方法
摘要: 我们在工作中经常会遇到一个问题,数据基础设施的设计往往没有充分考虑数据科学的需求。数据仓库或数据湖仓中的大量表格(主要是事实表和维度表)缺乏构建高性能机器学习模型所需的关键字段或结构。其中最显著的局限性在于,大多数表格仅记录观测值的当前状态,而未保留历史记录。 本文将通过缓慢变化维度(Slowly
阅读全文
posted @ 2025-01-06 09:47 deephub
阅读(48)
评论(0)
推荐(0)
2025年1月5日
PyTorch Geometric框架下图神经网络的可解释性机制:原理、实现与评估
摘要: 在机器学习领域存在一个普遍的认知误区,即可解释性与准确性存在对立关系。这种观点认为可解释模型在复杂度上存在固有限制,因此无法达到最优性能水平,神经网络之所以能够在各个领域占据主导地位,正是因为其超越了人类可理解的范畴。 其实这种观点存在根本性的谬误。研究表明,黑盒模型在高风险决策场景中往往表现出准确
阅读全文
posted @ 2025-01-05 13:56 deephub
阅读(72)
评论(0)
推荐(0)
2025年1月4日
PyTorch FlexAttention技术实践:基于BlockMask实现因果注意力与变长序列处理
摘要: 本文介绍了如何利用torch 2.5及以上版本中新引入的FlexAttention和BlockMask功能来实现因果注意力机制与填充输入的处理。 鉴于目前网络上缺乏关于FlexAttention处理填充输入序列的完整代码示例和技术讨论,本文将详细阐述一种实现方法,该方法同时涵盖了因果注意力机制的实现
阅读全文
posted @ 2025-01-04 09:53 deephub
阅读(57)
评论(0)
推荐(0)
2025年1月3日
深度强化学习中SAC算法:数学原理、网络架构及其PyTorch实现
摘要: 深度强化学习是人工智能领域最具挑战性的研究方向之一,其设计理念源于生物学习系统从经验中优化决策的机制。在众多深度强化学习算法中,软演员-评论家算法(Soft Actor-Critic, SAC)因其在样本效率、探索效果和训练稳定性等方面的优异表现而备受关注。 传统的深度强化学习算法往往在探索-利用权
阅读全文
posted @ 2025-01-03 09:54 deephub
阅读(249)
评论(0)
推荐(0)
2025年1月2日
分布匹配蒸馏:扩散模型的单步生成优化方法研究
摘要: 扩散模型在生成高质量图像领域具有显著优势,但其迭代去噪过程导致计算开销较大。分布匹配蒸馏(Distribution Matching Distillation,DMD)通过将多步扩散过程精简为单步生成器来解决这一问题。该方法结合分布匹配损失函数和对抗生成网络损失,实现从噪声图像到真实图像的高效映射,
阅读全文
posted @ 2025-01-02 09:53 deephub
阅读(154)
评论(0)
推荐(0)
2025年1月1日
五种被低估的非常规统计检验方法:数学原理剖析与多领域应用价值研究
摘要: 在当前的数据分析实践中,研究人员往往过度依赖t检验和方差分析(ANOVA)等传统统计方法。但是还存在多种具有重要应用价值但未受到足够重视的统计检验方法,这些方法在处理复杂的实际数据时具有独特优势。本文将详细介绍五种具有重要应用价值的统计检验方法,并探讨它们在免疫学(TCR/BCR库分析)、金融数据分
阅读全文
posted @ 2025-01-01 20:32 deephub
阅读(125)
评论(0)
推荐(0)
2024年12月31日
线性化注意力综述:突破Softmax二次复杂度瓶颈的高效计算方案
摘要: 大型语言模型在各个领域都展现出了卓越的性能,但其核心组件之一——softmax注意力机制在计算资源消耗方面存在显著局限性。本文将深入探讨如何通过替代方案实现线性时间复杂度,从而突破这一计算瓶颈。 注意力机制基础理论 本文假设读者已经熟悉ChatGPT、Claude等模型及其底层的transforme
阅读全文
posted @ 2024-12-31 10:45 deephub
阅读(60)
评论(0)
推荐(0)
2024年12月30日
SCOPE:面向大语言模型长序列生成的双阶段KV缓存优化框架
摘要: Key-Value (KV)缓存已成为大语言模型(LLM)长文本处理的关键性能瓶颈。当前研究尚未充分关注解码阶段的优化,这一阶段具有同等重要性,因为: 1、对需要完整上下文的场景,预填充阶段的过度压缩会显著降低模型的推理理解能力 2、在长输出推理任务中存在重要特征的显著偏移现象 这篇论文提出SCOP
阅读全文
posted @ 2024-12-30 10:12 deephub
阅读(67)
评论(0)
推荐(0)
上一页
1
···
37
38
39
40
41
42
43
44
45
···
150
下一页
公告