01 2025 档案

摘要:在Python开发领域,GIL(Global Interpreter Lock)一直是一个广受关注的技术话题。在3.13已经默认将GIL去除,在详细介绍3.13的更亲前,我们先要留了解GIL的技术本质、其对Python程序性能的影响。本文将主要基于CPython(用C语言实现的Python解释器,也 阅读全文
posted @ 2025-01-31 10:46 deephub 阅读(26) 评论(0) 推荐(0) 编辑
摘要:铰链损失(Hinge Loss)是支持向量机(Support Vector Machine, SVM)中最为核心的损失函数之一。该损失函数不仅在SVM中发挥着关键作用,也被广泛应用于其他机器学习模型的训练过程中。从数学角度来看,铰链损失函数提供了一种优雅的方式来量化分类器的预测性能。 数学表达式 铰 阅读全文
posted @ 2025-01-30 14:03 deephub 阅读(9) 评论(0) 推荐(0) 编辑
摘要:联邦学习(Federated Learning,FL)作为机器学习领域的关键技术范式,实现了在保障数据隐私的前提下进行分布式模型训练。 为推进联邦学习模型的研发与部署,业界开发了多种开源及商业框架工具。这些基础库为联邦学习的技术实践提供了核心支持,包括模型训练、数据安全保护、通信协议以及结果聚合等关 阅读全文
posted @ 2025-01-29 09:57 deephub 阅读(23) 评论(0) 推荐(0) 编辑
摘要:在时间序列分析领域中,存在多种可能影响分析结果有效性的技术挑战。其中,数据泄露、前瞻性偏差和因果关系违反是最为常见且具有显著影响的问题。 数据泄露:隐蔽的系统性错误 数据泄露是指在预测时理论上无法获取的信息,通过某种方式影响了模型的训练过程。在时间序列分析中,由于数据的时序特性,这种问题尤为隐蔽。数 阅读全文
posted @ 2025-01-28 09:50 deephub 阅读(21) 评论(0) 推荐(0) 编辑
摘要:知识蒸馏是一种通过性能与模型规模的权衡来实现模型压缩的技术。其核心思想是将较大规模模型(称为教师模型)中的知识迁移到规模较小的模型(称为学生模型)中。本文将深入探讨知识迁移的具体实现机制。 知识蒸馏原理 知识蒸馏的核心目标是实现从教师模型到学生模型的知识迁移。在实际应用中,无论是大规模语言模型(LL 阅读全文
posted @ 2025-01-27 09:46 deephub 阅读(75) 评论(0) 推荐(0) 编辑
摘要:在性能要求较高的应用场景中,Python常因其执行速度不及C、C++或Rust等编译型语言而受到质疑。然而通过合理运用Python标准库提供的优化特性,我们可以显著提升Python代码的执行效率。本文将详细介绍几种实用的性能优化技术。 https://avoid.overfit.cn/post/d5 阅读全文
posted @ 2025-01-26 09:39 deephub 阅读(7) 评论(0) 推荐(0) 编辑
摘要:多LLM摘要框架在每轮对话中包含两个基本步骤:生成和评估。这些步骤在多LLM分散式摘要和集中式摘要中有所不同。在两种策略中,k个不同的LLM都会生成多样化的文本摘要。然而在评估阶段,多LLM集中式摘要方法使用单个LLM来评估摘要并选择最佳摘要,而分散式多LLM摘要则使用k个LLM进行评估。 论文提出 阅读全文
posted @ 2025-01-25 10:05 deephub 阅读(14) 评论(0) 推荐(0) 编辑
摘要:大型语言模型(LLMs)在处理复杂推理任务时面临挑战,这突显了其在模拟人类认知中的不足。尽管 LLMs 擅长生成连贯文本和解决简单问题,但在需要逻辑推理、迭代方法和结果验证的复杂任务(如高级数学问题和抽象问题解决)中,其能力有所欠缺。 这种局限性源于 LLMs 的信息处理方式。大多数模型采用类似于系 阅读全文
posted @ 2025-01-24 09:49 deephub 阅读(15) 评论(0) 推荐(0) 编辑
摘要:大语言模型(LLM)通过其参数储存了大量信息,这些信息主要以密集层中线性矩阵变换的权重形式存在。然而,参数规模的扩大必然导致计算成本和能源消耗的显著增加。 这种参数存储方式是否可以通过更高效的键值查找机制来优化? 尽管此前已有多项相关研究,但在当前 AI 架构规模下的实践尚属首次。 Meta 研究团 阅读全文
posted @ 2025-01-23 10:05 deephub 阅读(21) 评论(0) 推荐(0) 编辑
摘要:在进行时间序列分析之前,确定序列的平稳性是一个关键步骤。平稳性指的是时间序列的统计特性(如均值和方差)在时间维度上保持不变。本文将详细介绍如何运用 KPSS 检验和 Dickey-Fuller 检验来验证序列的平稳性。这两种检验方法基于不同的统计假设:KPSS 检验的原假设是数据非平稳,而 Dick 阅读全文
posted @ 2025-01-22 14:04 deephub 阅读(13) 评论(0) 推荐(0) 编辑
摘要:金融资产波动率建模在现代金融工程中具有重要地位,其应用涵盖风险管理、衍生品定价和投资组合优化等核心领域。本文着重探讨三种主流波动率建模方法:广义自回归条件异方差模型(GARCH)、Glosten-Jagannathan-Runkle-GARCH模型(GJR-GARCH)以及异质自回归模型(HAR)。 阅读全文
posted @ 2025-01-21 10:04 deephub 阅读(15) 评论(0) 推荐(0) 编辑
摘要:状态空间模型通过构建生成可观测数据的潜在未观测状态模型来进行时间序列分析。作为该方法论的核心,卡尔曼滤波为实时估计这些隐状态提供了一个理论完备的解决方案。本文深入探讨这些方法的理论基础和实践应用,阐述其在多领域的适用性。 状态空间模型的理论基础 状态空间模型采用两个基本方程来描述动态系统。状态转移方 阅读全文
posted @ 2025-01-20 11:06 deephub 阅读(11) 评论(0) 推荐(0) 编辑
摘要:Jupyter Notebooks已成为数据科学家、机器学习工程师和Python开发人员的核心开发工具。其核心优势在于提供了一个集成式环境,支持代码执行、文本编辑和数据可视化的无缝整合。尽管大多数用户熟悉其基本功能,但许多能显著提升工作效率的高级特性往往被忽视。 本文将介绍一些高级功能,帮助您在数据 阅读全文
posted @ 2025-01-18 16:58 deephub 阅读(9) 评论(0) 推荐(0) 编辑
摘要:在机器学习领域,训练数据的价值并非均等:部分训练数据点对模型训练的影响显著高于其他数据点。评估单个数据点的影响程度通常需要反复重训练模型,计算效率低下。LossVal提出了一种创新方法,通过将数据价值评估过程直接集成到神经网络的损失函数中,实现了高效的数据价值评估。 现代机器学习模型通常依赖大规模数 阅读全文
posted @ 2025-01-17 17:15 deephub 阅读(11) 评论(0) 推荐(0) 编辑
摘要:TSFresh(基于可扩展假设检验的时间序列特征提取)是一个专门用于时间序列数据特征自动提取的框架。该框架提取的特征可直接应用于分类、回归和异常检测等机器学习任务。TSFresh通过自动化特征工程流程,显著提升了时间序列分析的效率。 自动化特征提取过程涉及处理数百个统计特征,包括均值、方差、偏度和自 阅读全文
posted @ 2025-01-16 17:57 deephub 阅读(27) 评论(0) 推荐(0) 编辑
摘要:Coconut(连续思维链)提出了一种新的大语言模型推理范式,该范式在潜在空间中进行运算,利用模型隐藏层生成的连续思维状态取代传统的基于文本的推理方式。系统将这些状态以输入嵌入的形式反馈至模型,通过广度优先搜索方法同时探索多条推理路径,避免了单一路径推理的局限性。通过规避基于自然语言推理的固有效率瓶 阅读全文
posted @ 2025-01-15 13:30 deephub 阅读(8) 评论(0) 推荐(0) 编辑
摘要:在现代数据分析领域,时间序列数据的处理和预测一直是一个具有挑战性的问题。随着物联网设备、金融交易系统和工业传感器的普及,我们面临着越来越多的高维时间序列数据。这些数据不仅维度高,而且往往包含复杂的时间依赖关系和潜在模式。传统的时间序列分析方法如移动平均等,在处理此类数据时往往显得力不从心。 基于矩阵 阅读全文
posted @ 2025-01-14 16:01 deephub 阅读(7) 评论(0) 推荐(0) 编辑
摘要:超参数优化是深度学习模型开发过程中的一个核心技术难点。合适的超参数组合能够显著提升模型性能,但优化过程往往需要消耗大量计算资源和时间。本文介绍TorchOptimizer,这是一个基于贝叶斯优化方法的超参数优化框架,专门用于优化PyTorch Lightning模型的超参数配置。 TorchOpti 阅读全文
posted @ 2025-01-13 10:21 deephub 阅读(12) 评论(0) 推荐(0) 编辑
摘要:Aeon 是一个专注于时间序列处理的开源Python库,其设计理念遵循scikit-learn的API风格,为数据科学家和研究人员提供了一套完整的时间序列分析工具。该项目保持活跃开发,截至2024年仍持续更新。 Aeon提供了以下主要功能模块: 时间序列分类- 支持多种分类算法实现- 包含基于间隔、 阅读全文
posted @ 2025-01-12 10:19 deephub 阅读(16) 评论(0) 推荐(0) 编辑
摘要:深度学习作为当前计算机科学领域最具前沿性的研究方向之一,其应用范围涵盖了从计算机视觉到自然语言处理等多个领域。本文将探讨深度学习在游戏领域的一个具体应用:构建一个能够自主学习并完成超级马里奥兄弟的游戏的智能系统。 强化学习基础 强化学习是机器学习的一个重要分支,研究智能体如何通过与环境的交互学习来优 阅读全文
posted @ 2025-01-11 21:27 deephub 阅读(22) 评论(0) 推荐(0) 编辑
摘要:本文将详细解读NeurIPS 2024最佳论文:**"Visual Autoregressive Modeling: Scalable Image Generation via Next-Scale Prediction(视觉自回归建模:基于下一尺度预测的可扩展图像生成)"**。 该论文提出了视觉自 阅读全文
posted @ 2025-01-10 09:50 deephub 阅读(29) 评论(0) 推荐(0) 编辑
摘要:在深度学习模型部署和优化领域,计算效率与资源消耗的平衡一直是一个核心挑战。PyTorch团队针对这一问题推出了创新性的技术方案——在其原生低精度计算库TorchAO中引入低位运算符支持。这一技术突破不仅实现了1至8位精度的嵌入层权重量化,还支持了具有8位动态量化激活的线性运算符,为解决资源受限环境下 阅读全文
posted @ 2025-01-09 10:05 deephub 阅读(11) 评论(0) 推荐(0) 编辑
摘要:循环状态空间模型(Recurrent State Space Models, RSSM)最初由 Danijar Hafer 等人在论文《Learning Latent Dynamics for Planning from Pixels》中提出。该模型在现代基于模型的强化学习(Model-Based 阅读全文
posted @ 2025-01-08 09:45 deephub 阅读(12) 评论(0) 推荐(0) 编辑
摘要:特征选择是一个识别数据集中最具相关性变量的过程,其主要目标是提升模型性能并降低系统复杂度。传统特征选择方法存在一定局限性。变量之间往往存在相互依存关系,移除某一变量可能会削弱其他变量的预测能力。 这种方法容易忽视某些变量只有在与其他变量组合时才能提供有效信息的情况。这种局限性可能导致模型性能次优。为 阅读全文
posted @ 2025-01-07 11:47 deephub 阅读(20) 评论(0) 推荐(0) 编辑
摘要:我们在工作中经常会遇到一个问题,数据基础设施的设计往往没有充分考虑数据科学的需求。数据仓库或数据湖仓中的大量表格(主要是事实表和维度表)缺乏构建高性能机器学习模型所需的关键字段或结构。其中最显著的局限性在于,大多数表格仅记录观测值的当前状态,而未保留历史记录。 本文将通过缓慢变化维度(Slowly 阅读全文
posted @ 2025-01-06 09:47 deephub 阅读(17) 评论(0) 推荐(0) 编辑
摘要:在机器学习领域存在一个普遍的认知误区,即可解释性与准确性存在对立关系。这种观点认为可解释模型在复杂度上存在固有限制,因此无法达到最优性能水平,神经网络之所以能够在各个领域占据主导地位,正是因为其超越了人类可理解的范畴。 其实这种观点存在根本性的谬误。研究表明,黑盒模型在高风险决策场景中往往表现出准确 阅读全文
posted @ 2025-01-05 13:56 deephub 阅读(16) 评论(0) 推荐(0) 编辑
摘要:本文介绍了如何利用torch 2.5及以上版本中新引入的FlexAttention和BlockMask功能来实现因果注意力机制与填充输入的处理。 鉴于目前网络上缺乏关于FlexAttention处理填充输入序列的完整代码示例和技术讨论,本文将详细阐述一种实现方法,该方法同时涵盖了因果注意力机制的实现 阅读全文
posted @ 2025-01-04 09:53 deephub 阅读(10) 评论(0) 推荐(0) 编辑
摘要:深度强化学习是人工智能领域最具挑战性的研究方向之一,其设计理念源于生物学习系统从经验中优化决策的机制。在众多深度强化学习算法中,软演员-评论家算法(Soft Actor-Critic, SAC)因其在样本效率、探索效果和训练稳定性等方面的优异表现而备受关注。 传统的深度强化学习算法往往在探索-利用权 阅读全文
posted @ 2025-01-03 09:54 deephub 阅读(52) 评论(0) 推荐(0) 编辑
摘要:扩散模型在生成高质量图像领域具有显著优势,但其迭代去噪过程导致计算开销较大。分布匹配蒸馏(Distribution Matching Distillation,DMD)通过将多步扩散过程精简为单步生成器来解决这一问题。该方法结合分布匹配损失函数和对抗生成网络损失,实现从噪声图像到真实图像的高效映射, 阅读全文
posted @ 2025-01-02 09:53 deephub 阅读(22) 评论(0) 推荐(0) 编辑
摘要:在当前的数据分析实践中,研究人员往往过度依赖t检验和方差分析(ANOVA)等传统统计方法。但是还存在多种具有重要应用价值但未受到足够重视的统计检验方法,这些方法在处理复杂的实际数据时具有独特优势。本文将详细介绍五种具有重要应用价值的统计检验方法,并探讨它们在免疫学(TCR/BCR库分析)、金融数据分 阅读全文
posted @ 2025-01-01 20:32 deephub 阅读(54) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示