08 2024 档案

摘要:在商业分析中,"时间"是一个核心概念。我们基于时间组件来分析销售数据、收入、利润、增长,甚至进行预测。然而,对于初学者来说,这可能是一个复杂的主题。在处理时间敏感的数据集时,需要考虑时间序列数据的多个细微方面。 在这个领域,没有放之四海而皆准的方法。我们不必总是强制使用传统的时间序列技术,如ARIM 阅读全文
posted @ 2024-08-31 10:14 deephub 阅读(36) 评论(0) 推荐(0) 编辑
摘要:在机器学习和深度学习项目中,数据处理是至关重要的一环。PyTorch作为一个强大的深度学习框架,提供了多种灵活且高效的数据处理工具。本文将深入介绍PyTorch中 torch.utils.data 模块的7个核心函数,这些工具可以帮助你更好地管理和操作数据。我们将详细解释每个函数,并提供代码示例来展 阅读全文
posted @ 2024-08-30 09:15 deephub 阅读(41) 评论(0) 推荐(0) 编辑
摘要:随着多代理系统的出现,强化学习的复杂性不断增加。为了管理这种复杂性,像 TorchRL 这样的专门工具提供了一个强大的框架,可以开发和实验多代理强化学习(MARL)算法。本文将深入探讨如何使用 TorchRL 解决 MARL 问题,重点关注多代理环境中的近端策略优化(PPO)。 我们将使用 VMAS 阅读全文
posted @ 2024-08-28 10:41 deephub 阅读(29) 评论(0) 推荐(0) 编辑
摘要:给定一个模型架构、数据类型、输入形状和优化器,你能否计算出前向传播和反向传播所需的GPU内存量?要回答这个问题,我们需要将流程分解为基本组件,并从底层理解内存需求。以下实验(可以在Google Colab上运行)将帮助你理解核心概念。 数据类型 float32 需要4字节的内存, bfloat16 阅读全文
posted @ 2024-08-27 10:55 deephub 阅读(21) 评论(0) 推荐(0) 编辑
摘要:时间序列是一种特殊的存在。这意味着你对表格数据或图像进行的许多转换/操作/处理技术对于时间序列来说可能根本不起作用。 "特征提取"的想法是对我们拥有的数据进行"加工",确保我们提取所有有意义的特征,以便下一步(通常是机器学习应用)可以从中受益。也就是说它是一种通过提供重要特征并过滤掉所有不太重要的特 阅读全文
posted @ 2024-08-26 20:51 deephub 阅读(39) 评论(0) 推荐(0) 编辑
摘要:可视化时间序列数据是具有挑战性,尤其是涉及多个数据集时。精心设计的可视化不仅能清晰地传达信息,还能减少观察者的认知负荷,使其更容易提取有意义的洞察。 在本文中,我们将探讨使真实世界的疫苗接种数据来可视化单个时间序列和多个时间序列。 https://avoid.overfit.cn/post/24bc 阅读全文
posted @ 2024-08-25 16:32 deephub 阅读(14) 评论(0) 推荐(0) 编辑
摘要:正则化是一种强大的技术,通过防止过拟合来提高模型性能。本文将探索各种XGBoost中的正则化方法及其优势。 为什么正则化在XGBoost中很重要? XGBoost是一种以其在各种机器学习任务中的效率和性能而闻名的强大算法。像任何其他复杂模型一样,它可能会过拟合,特别是在处理噪声数据或过多特征时。XG 阅读全文
posted @ 2024-08-24 19:31 deephub 阅读(28) 评论(0) 推荐(0) 编辑
摘要:LLM自我改进的典型范式是在自生成数据上训练LLM,但是其中的部分数据可能有害,所以应该被过滤掉。但是目前的工作主要采用基于答案正确性的过滤策略,在这篇论文中,证明过滤掉正确但具有高分布偏移程度(DSE)的样本也可以有利于自我改进的结果。 论文的主要贡献如下: 提出了一个称为DS权重的指标,借助一个 阅读全文
posted @ 2024-08-23 10:48 deephub 阅读(18) 评论(0) 推荐(0) 编辑
摘要:异常通常被定义为数据集中与大多数其他项目非常不同的项目。或者说任何与所有其他记录(或几乎所有其他记录)显著不同的记录,并且与其他记录的差异程度超出正常范围,都可以合理地被认为是异常。 例如上图显示的数据集中,我们有四个簇(A、B、C和D)和三个位于这些簇之外的点:P1、P2和P3可能被视为异常,因为 阅读全文
posted @ 2024-08-22 11:39 deephub 阅读(34) 评论(0) 推荐(0) 编辑
摘要:自助抽样可以根据收集的样本推断总体的统计特征(如均值、十分位数、置信区间)。泊松自助抽样(Poisson Bootstrap Sampling)是一种用于统计分析中的重采样技术,特别是在机器学习和数据科学中用于模型评估和误差估计。这种方法的一个特点是保留了样本中数据点出现的自然波动,而不是像传统的自 阅读全文
posted @ 2024-08-21 10:08 deephub 阅读(31) 评论(0) 推荐(0) 编辑
摘要:在统计学和机器学习中,理解变量之间的关系对于构建预测模型和分析数据至关重要。探索这些关系的一种基本技术是双变量投影 bivariate projection。它依赖于二元正态分布的概念,所以又被称为二元投影。这种技术允许我们根据另一个变量来检验和预测一个变量的行为,利用它们之间的依赖结构,所以在本文 阅读全文
posted @ 2024-08-20 11:45 deephub 阅读(28) 评论(0) 推荐(0) 编辑
摘要:深度神经网络在识别模式和进行预测方面表现出色,但在涉及图像识别任务时,它们常常难以区分相似个体的图像。三元组损失是一种强大的训练技术,可以解决这个问题,它通过学习相似度度量,在高维空间中将相似图像准确地嵌入到彼此接近的位置。 在这篇文章中,我们将以简单的技术术语解析三元组损失及其变体批量三元组损失, 阅读全文
posted @ 2024-08-19 10:31 deephub 阅读(55) 评论(0) 推荐(0) 编辑
摘要:变分自编码器(VAEs)是一种生成式人工智能,因其能够创建逼真的图像而备受关注,它们不仅可以应用在图像上,也可以创建时间序列数据。标准VAE可以被改编以捕捉时间序列数据的周期性和顺序模式,然后用于生成合成数据。本文将使用一维卷积层、策略性的步幅选择、灵活的时间维度和季节性依赖的先验来模拟温度数据。 阅读全文
posted @ 2024-08-17 10:14 deephub 阅读(84) 评论(0) 推荐(0) 编辑
摘要:LLM可以处理长达100,000个token的输入,但在生成超过2,000词的适度长度输出时仍然面临困难,因为模型的有效生成长度本质上受到其在监督微调(SFT)过程中所见样本的限制。 为解决这个问题,本文的作者引入了AgentWrite,这是一个基于代理的流程,它将超长生成任务分解为子任务,使现成的 阅读全文
posted @ 2024-08-16 10:08 deephub 阅读(24) 评论(0) 推荐(0) 编辑
摘要:SAM2(Segment Anything 2)是Meta开发的一个新模型,可以对图像中的任何物体进行分割,而不局限于特定的类别或领域。这个模型的独特之处在于其训练数据的规模:1100万张图像和110亿个掩码。这种广泛的训练使SAM2成为训练新图像分割任务的强大起点。 如果SAM可以分割任何东西,为 阅读全文
posted @ 2024-08-15 10:18 deephub 阅读(275) 评论(0) 推荐(0) 编辑
摘要:根据定义,声音去噪是从音频信号中去除不需要的噪音或干扰,以提高其质量和清晰度的过程。这涉及识别和隔离噪音成分(通常以不规则或高频元素为特征),并将其过滤掉,同时保持原始声音的完整性。 声音去噪目标是改善聆听体验以及音频分析和处理的准确性。过滤掉噪音对于高保真音频来说非常重要,不仅是为了聆听,也是为了 阅读全文
posted @ 2024-08-14 11:02 deephub 阅读(74) 评论(0) 推荐(0) 编辑
摘要:PyTorch提供了几种张量乘法的方法,每种方法都是不同的,并且有不同的应用。我们来详细介绍每个方法,并且详细解释这些函数有什么区别: https://avoid.overfit.cn/post/2ce5023db7634886b602e7eb6ce4abb7 阅读全文
posted @ 2024-08-13 10:05 deephub 阅读(62) 评论(0) 推荐(0) 编辑
摘要:以Vision Transformer (ViT)的发现为先导的基于transformer的架构在计算机视觉领域引发了一场革命。对于广泛的应用,ViT及其各种变体已经有效地挑战了卷积神经网络(CNN)作为最先进架构的地位。尽管取得了一些成功,但是ViT需要更长的训练时间,并且对于小型到中型输入数据大 阅读全文
posted @ 2024-08-12 11:50 deephub 阅读(40) 评论(0) 推荐(0) 编辑
摘要:精确分割在当今众多领域都是一项关键需求比如说自动驾驶汽车的训练、医学图像识别系统,以及通过卫星图像进行监测。在许多其他领域,当感兴趣的对象微小但至关重要时,例如研究血管流动、手术规划、检测建筑结构中的裂缝或优化路线规划,需要更高的精度。此前已经做了大量工作来解决这种具有挑战性的分割问题。 此前已经做 阅读全文
posted @ 2024-08-11 10:53 deephub 阅读(24) 评论(0) 推荐(0) 编辑
摘要:多元时间序列是一个在大学课程中经常未被提及的话题。但是现实世界的数据通常具有多个维度,所以需要多元时间序列分析技术。在这文章我们将通过可视化和Python实现来学习多元时间序列概念。这里假设读者已经了解单变量时间序列分析。 1、什么是多元时间序列? 顾名思义,多元时间序列是与时间相关的多维数据。我们 阅读全文
posted @ 2024-08-10 11:14 deephub 阅读(49) 评论(0) 推荐(0) 编辑
摘要:大型语言模型(LLMs)通常因为体积过大而无法在消费级硬件上运行。这些模型可能包含数十亿个参数,通常需要配备大量显存的GPU来加速推理过程。 因此越来越多的研究致力于通过改进训练、使用适配器等方法来缩小这些模型的体积。在这一领域中,一个主要的技术被称为量化。 在这篇文章中,我将在语言建模的背景下介绍 阅读全文
posted @ 2024-08-03 12:11 deephub 阅读(116) 评论(0) 推荐(0) 编辑
摘要:决策树是一种非参数的监督学习算法,可用于分类和回归。它使用类似树的结构来表示决策及其潜在结果。决策树易于理解和解释,并且可以轻松地进行可视化。但是当决策树模型变得过于复杂时,它不能很好地从训练数据中泛化,会导致过拟合。 梯度提升是一种集成学习模型,在其中结合许多弱学习器从而得到一个强学习器。这些弱学 阅读全文
posted @ 2024-08-02 12:10 deephub 阅读(16) 评论(0) 推荐(0) 编辑
摘要:Adam(W)目前为训练LLM的主流优化器,但其内存开销较大,这是因为Adam优化器需要存储一阶动量m和二阶动量v,总内存占用至少是模型大小的两倍,这对现有的高端显卡也是一种负担。论文提出一种新的优化器Adam-mini,在不牺牲性能的情况下减少Adam优化器的内存占用。 https://avoid 阅读全文
posted @ 2024-08-01 12:26 deephub 阅读(64) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示