会员
周边
新闻
博问
闪存
众包
赞助商
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
deephub
overfit深度学习
博客园
首页
新随笔
联系
订阅
管理
上一页
1
···
52
53
54
55
56
57
58
59
60
···
151
下一页
2024年8月10日
多元时间序列分析统计学基础:基本概念、VMA、VAR和VARMA
摘要: 多元时间序列是一个在大学课程中经常未被提及的话题。但是现实世界的数据通常具有多个维度,所以需要多元时间序列分析技术。在这文章我们将通过可视化和Python实现来学习多元时间序列概念。这里假设读者已经了解单变量时间序列分析。 1、什么是多元时间序列? 顾名思义,多元时间序列是与时间相关的多维数据。我们
阅读全文
posted @ 2024-08-10 11:14 deephub
阅读(112)
评论(0)
推荐(0)
2024年8月3日
模型量化技术综述:揭示大型语言模型压缩的前沿技术
摘要: 大型语言模型(LLMs)通常因为体积过大而无法在消费级硬件上运行。这些模型可能包含数十亿个参数,通常需要配备大量显存的GPU来加速推理过程。 因此越来越多的研究致力于通过改进训练、使用适配器等方法来缩小这些模型的体积。在这一领域中,一个主要的技术被称为量化。 在这篇文章中,我将在语言建模的背景下介绍
阅读全文
posted @ 2024-08-03 12:11 deephub
阅读(243)
评论(0)
推荐(0)
2024年8月2日
深入浅出:可视化理解揭示决策树与梯度提升背后的数学原理
摘要: 决策树是一种非参数的监督学习算法,可用于分类和回归。它使用类似树的结构来表示决策及其潜在结果。决策树易于理解和解释,并且可以轻松地进行可视化。但是当决策树模型变得过于复杂时,它不能很好地从训练数据中泛化,会导致过拟合。 梯度提升是一种集成学习模型,在其中结合许多弱学习器从而得到一个强学习器。这些弱学
阅读全文
posted @ 2024-08-02 12:10 deephub
阅读(48)
评论(0)
推荐(0)
2024年8月1日
Adam-mini:内存占用减半,性能更优的深度学习优化器
摘要: Adam(W)目前为训练LLM的主流优化器,但其内存开销较大,这是因为Adam优化器需要存储一阶动量m和二阶动量v,总内存占用至少是模型大小的两倍,这对现有的高端显卡也是一种负担。论文提出一种新的优化器Adam-mini,在不牺牲性能的情况下减少Adam优化器的内存占用。 https://avoid
阅读全文
posted @ 2024-08-01 12:26 deephub
阅读(122)
评论(0)
推荐(0)
2024年7月28日
深度学习中常用损失函数介绍
摘要: 选择正确的损失函数对于训练机器学习模型非常重要。不同的损失函数适用于不同类型的问题。本文将总结一些常见的损失函数,并附有易于理解的解释、用法和示例 https://avoid.overfit.cn/post/1435dd9dc90e420e965b3ab939363216
阅读全文
posted @ 2024-07-28 16:26 deephub
阅读(105)
评论(0)
推荐(0)
2024年7月27日
大语言模型的Scaling Law:如何随着模型大小、训练数据和计算资源的增加而扩展
摘要: 人工智能的世界正在经历一场革命,大型语言模型正处于这场革命的前沿,它们似乎每天都在变得更加强大。从BERT到GPT-3再到PaLM,这些AI巨头正在推动自然语言处理可能性的边界。但你有没有想过是什么推动了它们能力的飞速提升? 在这篇文章中,我们将介绍使这些模型运作的秘密武器——一个由三个关键部分组成
阅读全文
posted @ 2024-07-27 09:35 deephub
阅读(61)
评论(0)
推荐(0)
2024年7月26日
精简模型,提升效能:线性回归中的特征选择技巧
摘要: 在本文中,我们将探讨各种特征选择方法和技术,用以在保持模型评分可接受的情况下减少特征数量。通过减少噪声和冗余信息,模型可以更快地处理,并减少复杂性。 我们将使用所有特征作为基础模型。然后将执行各种特征选择技术,以确定保留和删除的最佳特征,同时不显著牺牲评分(R2 分数)。使用的方法包括: 相关性矩阵
阅读全文
posted @ 2024-07-26 10:49 deephub
阅读(121)
评论(0)
推荐(0)
2024年7月25日
贝叶斯分析与决策理论:用于确定分类问题决策点的应用
摘要: 在分类问题中,一个常见的难题是决定输出为数字时各类别之间的切分点。例如,一个神经网络的输出是介于0到1之间的数字,比如0.7,这是对应于正类(1)还是负类(0)?常识告诉我们使用0.5作为决策标记,但如果低估正类的风险较高怎么办?或者如果类别不平衡呢? 在这些情况下,正确估计切分点需要复审概率和贝叶
阅读全文
posted @ 2024-07-25 10:30 deephub
阅读(30)
评论(0)
推荐(0)
2024年7月24日
大语言模型对时间序列预测真的有用吗?
摘要: 我们已经看到了语言模型的巨大进步,但时间序列任务,如预测呢?今天我们推荐一篇论文,对现有的语言模型和时间序列做了深入的研究。将探讨了是否可以从大型语言模型(LLMs)中获益于时间序列(TS)预测。 时间序列 时间序列是机器学习中最具挑战性的工作领域之一,解决时间序列任务,如异常检测、时间序列预测等,
阅读全文
posted @ 2024-07-24 10:17 deephub
阅读(84)
评论(0)
推荐(0)
2024年7月23日
用PyTorch从零开始编写DeepSeek-V2
摘要: DeepSeek-V2是一个强大的开源混合专家(MoE)语言模型,通过创新的Transformer架构实现了经济高效的训练和推理。该模型总共拥有2360亿参数,其中每个令牌激活21亿参数,支持最大128K令牌的上下文长度。 在开源模型中,DeepSeek-V2实现了顶级性能,成为最强大的开源MoE语
阅读全文
posted @ 2024-07-23 11:02 deephub
阅读(495)
评论(0)
推荐(0)
上一页
1
···
52
53
54
55
56
57
58
59
60
···
151
下一页
公告