会员
周边
新闻
博问
闪存
赞助商
YouClaw
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
deephub
overfit深度学习
博客园
首页
新随笔
联系
订阅
管理
上一页
1
···
38
39
40
41
42
43
44
45
46
···
154
下一页
2025年1月30日
深入剖析SVM核心机制:铰链损失函数的原理与代码实现
摘要: 铰链损失(Hinge Loss)是支持向量机(Support Vector Machine, SVM)中最为核心的损失函数之一。该损失函数不仅在SVM中发挥着关键作用,也被广泛应用于其他机器学习模型的训练过程中。从数学角度来看,铰链损失函数提供了一种优雅的方式来量化分类器的预测性能。 数学表达式 铰
阅读全文
posted @ 2025-01-30 14:03 deephub
阅读(51)
评论(0)
推荐(0)
2025年1月29日
十大主流联邦学习框架:技术特性、架构分析与对比研究
摘要: 联邦学习(Federated Learning,FL)作为机器学习领域的关键技术范式,实现了在保障数据隐私的前提下进行分布式模型训练。 为推进联邦学习模型的研发与部署,业界开发了多种开源及商业框架工具。这些基础库为联邦学习的技术实践提供了核心支持,包括模型训练、数据安全保护、通信协议以及结果聚合等关
阅读全文
posted @ 2025-01-29 09:57 deephub
阅读(219)
评论(0)
推荐(0)
2025年1月28日
构建可靠的时间序列预测模型:数据泄露检测、前瞻性偏差消除与因果关系验证
摘要: 在时间序列分析领域中,存在多种可能影响分析结果有效性的技术挑战。其中,数据泄露、前瞻性偏差和因果关系违反是最为常见且具有显著影响的问题。 数据泄露:隐蔽的系统性错误 数据泄露是指在预测时理论上无法获取的信息,通过某种方式影响了模型的训练过程。在时间序列分析中,由于数据的时序特性,这种问题尤为隐蔽。数
阅读全文
posted @ 2025-01-28 09:50 deephub
阅读(144)
评论(0)
推荐(0)
2025年1月27日
知识蒸馏技术原理详解:从软标签到模型压缩的实现机制
摘要: 知识蒸馏是一种通过性能与模型规模的权衡来实现模型压缩的技术。其核心思想是将较大规模模型(称为教师模型)中的知识迁移到规模较小的模型(称为学生模型)中。本文将深入探讨知识迁移的具体实现机制。 知识蒸馏原理 知识蒸馏的核心目标是实现从教师模型到学生模型的知识迁移。在实际应用中,无论是大规模语言模型(LL
阅读全文
posted @ 2025-01-27 09:46 deephub
阅读(269)
评论(0)
推荐(0)
2025年1月26日
Python高性能编程:五种核心优化技术的原理与Python代码
摘要: 在性能要求较高的应用场景中,Python常因其执行速度不及C、C++或Rust等编译型语言而受到质疑。然而通过合理运用Python标准库提供的优化特性,我们可以显著提升Python代码的执行效率。本文将详细介绍几种实用的性能优化技术。 https://avoid.overfit.cn/post/d5
阅读全文
posted @ 2025-01-26 09:39 deephub
阅读(44)
评论(0)
推荐(0)
2025年1月25日
面向长文本的多模型协作摘要架构:多LLM文本摘要方法
摘要: 多LLM摘要框架在每轮对话中包含两个基本步骤:生成和评估。这些步骤在多LLM分散式摘要和集中式摘要中有所不同。在两种策略中,k个不同的LLM都会生成多样化的文本摘要。然而在评估阶段,多LLM集中式摘要方法使用单个LLM来评估摘要并选择最佳摘要,而分散式多LLM摘要则使用k个LLM进行评估。 论文提出
阅读全文
posted @ 2025-01-25 10:05 deephub
阅读(90)
评论(0)
推荐(0)
2025年1月24日
Meta-CoT:通过元链式思考增强大型语言模型的推理能力
摘要: 大型语言模型(LLMs)在处理复杂推理任务时面临挑战,这突显了其在模拟人类认知中的不足。尽管 LLMs 擅长生成连贯文本和解决简单问题,但在需要逻辑推理、迭代方法和结果验证的复杂任务(如高级数学问题和抽象问题解决)中,其能力有所欠缺。 这种局限性源于 LLMs 的信息处理方式。大多数模型采用类似于系
阅读全文
posted @ 2025-01-24 09:49 deephub
阅读(48)
评论(0)
推荐(0)
2025年1月23日
记忆层增强的 Transformer 架构:通过可训练键值存储提升 LLM 性能的创新方法
摘要: 大语言模型(LLM)通过其参数储存了大量信息,这些信息主要以密集层中线性矩阵变换的权重形式存在。然而,参数规模的扩大必然导致计算成本和能源消耗的显著增加。 这种参数存储方式是否可以通过更高效的键值查找机制来优化? 尽管此前已有多项相关研究,但在当前 AI 架构规模下的实践尚属首次。 Meta 研究团
阅读全文
posted @ 2025-01-23 10:05 deephub
阅读(107)
评论(0)
推荐(0)
2025年1月22日
时间序列平稳性的双重假设检验:KPSS与ADF方法比较研究
摘要: 在进行时间序列分析之前,确定序列的平稳性是一个关键步骤。平稳性指的是时间序列的统计特性(如均值和方差)在时间维度上保持不变。本文将详细介绍如何运用 KPSS 检验和 Dickey-Fuller 检验来验证序列的平稳性。这两种检验方法基于不同的统计假设:KPSS 检验的原假设是数据非平稳,而 Dick
阅读全文
posted @ 2025-01-22 14:04 deephub
阅读(99)
评论(0)
推荐(0)
2025年1月21日
金融波动率的多模型建模研究:GARCH族与HAR模型的Python实现与对比分析
摘要: 金融资产波动率建模在现代金融工程中具有重要地位,其应用涵盖风险管理、衍生品定价和投资组合优化等核心领域。本文着重探讨三种主流波动率建模方法:广义自回归条件异方差模型(GARCH)、Glosten-Jagannathan-Runkle-GARCH模型(GJR-GARCH)以及异质自回归模型(HAR)。
阅读全文
posted @ 2025-01-21 10:04 deephub
阅读(125)
评论(0)
推荐(0)
上一页
1
···
38
39
40
41
42
43
44
45
46
···
154
下一页
公告