deephub

2024年8月11日

Skeleton Recall Loss 分割领域的新突破：极大的减少了资源消耗，还能提高性能

摘要：精确分割在当今众多领域都是一项关键需求比如说自动驾驶汽车的训练、医学图像识别系统，以及通过卫星图像进行监测。在许多其他领域，当感兴趣的对象微小但至关重要时，例如研究血管流动、手术规划、检测建筑结构中的裂缝或优化路线规划，需要更高的精度。此前已经做了大量工作来解决这种具有挑战性的分割问题。此前已经做阅读全文

posted @ 2024-08-11 10:53 deephub 阅读(62) 评论(0) 推荐(0)

2024年8月10日

多元时间序列分析统计学基础：基本概念、VMA、VAR和VARMA

摘要：多元时间序列是一个在大学课程中经常未被提及的话题。但是现实世界的数据通常具有多个维度，所以需要多元时间序列分析技术。在这文章我们将通过可视化和Python实现来学习多元时间序列概念。这里假设读者已经了解单变量时间序列分析。 1、什么是多元时间序列？顾名思义，多元时间序列是与时间相关的多维数据。我们阅读全文

posted @ 2024-08-10 11:14 deephub 阅读(112) 评论(0) 推荐(0)

2024年8月3日

模型量化技术综述：揭示大型语言模型压缩的前沿技术

摘要：大型语言模型（LLMs）通常因为体积过大而无法在消费级硬件上运行。这些模型可能包含数十亿个参数，通常需要配备大量显存的GPU来加速推理过程。因此越来越多的研究致力于通过改进训练、使用适配器等方法来缩小这些模型的体积。在这一领域中，一个主要的技术被称为量化。在这篇文章中，我将在语言建模的背景下介绍阅读全文

posted @ 2024-08-03 12:11 deephub 阅读(244) 评论(0) 推荐(0)

2024年8月2日

深入浅出：可视化理解揭示决策树与梯度提升背后的数学原理

摘要：决策树是一种非参数的监督学习算法，可用于分类和回归。它使用类似树的结构来表示决策及其潜在结果。决策树易于理解和解释，并且可以轻松地进行可视化。但是当决策树模型变得过于复杂时，它不能很好地从训练数据中泛化，会导致过拟合。梯度提升是一种集成学习模型，在其中结合许多弱学习器从而得到一个强学习器。这些弱学阅读全文

posted @ 2024-08-02 12:10 deephub 阅读(48) 评论(0) 推荐(0)

2024年8月1日

Adam-mini：内存占用减半，性能更优的深度学习优化器

摘要： Adam(W)目前为训练LLM的主流优化器，但其内存开销较大，这是因为Adam优化器需要存储一阶动量m和二阶动量v，总内存占用至少是模型大小的两倍，这对现有的高端显卡也是一种负担。论文提出一种新的优化器Adam-mini，在不牺牲性能的情况下减少Adam优化器的内存占用。 https://avoid 阅读全文

posted @ 2024-08-01 12:26 deephub 阅读(122) 评论(0) 推荐(0)

2024年7月28日

深度学习中常用损失函数介绍

摘要：选择正确的损失函数对于训练机器学习模型非常重要。不同的损失函数适用于不同类型的问题。本文将总结一些常见的损失函数，并附有易于理解的解释、用法和示例 https://avoid.overfit.cn/post/1435dd9dc90e420e965b3ab939363216 阅读全文

posted @ 2024-07-28 16:26 deephub 阅读(105) 评论(0) 推荐(0)

2024年7月27日

大语言模型的Scaling Law：如何随着模型大小、训练数据和计算资源的增加而扩展

摘要：人工智能的世界正在经历一场革命，大型语言模型正处于这场革命的前沿，它们似乎每天都在变得更加强大。从BERT到GPT-3再到PaLM，这些AI巨头正在推动自然语言处理可能性的边界。但你有没有想过是什么推动了它们能力的飞速提升？在这篇文章中，我们将介绍使这些模型运作的秘密武器——一个由三个关键部分组成阅读全文

posted @ 2024-07-27 09:35 deephub 阅读(61) 评论(0) 推荐(0)

2024年7月26日

精简模型，提升效能：线性回归中的特征选择技巧

摘要：在本文中，我们将探讨各种特征选择方法和技术，用以在保持模型评分可接受的情况下减少特征数量。通过减少噪声和冗余信息，模型可以更快地处理，并减少复杂性。我们将使用所有特征作为基础模型。然后将执行各种特征选择技术，以确定保留和删除的最佳特征，同时不显著牺牲评分（R2 分数）。使用的方法包括：相关性矩阵阅读全文

posted @ 2024-07-26 10:49 deephub 阅读(121) 评论(0) 推荐(0)

2024年7月25日

贝叶斯分析与决策理论：用于确定分类问题决策点的应用

摘要：在分类问题中，一个常见的难题是决定输出为数字时各类别之间的切分点。例如，一个神经网络的输出是介于0到1之间的数字，比如0.7，这是对应于正类（1）还是负类（0）？常识告诉我们使用0.5作为决策标记，但如果低估正类的风险较高怎么办？或者如果类别不平衡呢？在这些情况下，正确估计切分点需要复审概率和贝叶阅读全文

posted @ 2024-07-25 10:30 deephub 阅读(30) 评论(0) 推荐(0)

2024年7月24日

大语言模型对时间序列预测真的有用吗？

摘要：我们已经看到了语言模型的巨大进步，但时间序列任务，如预测呢？今天我们推荐一篇论文，对现有的语言模型和时间序列做了深入的研究。将探讨了是否可以从大型语言模型（LLMs）中获益于时间序列（TS）预测。时间序列时间序列是机器学习中最具挑战性的工作领域之一，解决时间序列任务，如异常检测、时间序列预测等，阅读全文

posted @ 2024-07-24 10:17 deephub 阅读(84) 评论(0) 推荐(0)

overfit深度学习

公告