deephub

2024年7月24日

摘要：我们已经看到了语言模型的巨大进步，但时间序列任务，如预测呢？今天我们推荐一篇论文，对现有的语言模型和时间序列做了深入的研究。将探讨了是否可以从大型语言模型（LLMs）中获益于时间序列（TS）预测。时间序列时间序列是机器学习中最具挑战性的工作领域之一，解决时间序列任务，如异常检测、时间序列预测等，阅读全文

posted @ 2024-07-24 10:17 deephub 阅读(33) 评论(0) 推荐(0) 编辑

2024年7月23日

用PyTorch从零开始编写DeepSeek-V2

摘要： DeepSeek-V2是一个强大的开源混合专家（MoE）语言模型，通过创新的Transformer架构实现了经济高效的训练和推理。该模型总共拥有2360亿参数，其中每个令牌激活21亿参数，支持最大128K令牌的上下文长度。在开源模型中，DeepSeek-V2实现了顶级性能，成为最强大的开源MoE语阅读全文

posted @ 2024-07-23 11:02 deephub 阅读(48) 评论(0) 推荐(0) 编辑

2024年7月22日

VQ-VAE：矢量量化变分自编码器，离散化特征学习模型

摘要： VQ-VAE 是变分自编码器（VAE）的一种改进。这些模型可以用来学习有效的表示。本文将深入研究 VQ-VAE 之前，不过，在这之前我们先讨论一些概率基础和 VAE 架构。 https://avoid.overfit.cn/post/85355d48ece84f77b7c1b02f60de9c8f 阅读全文

posted @ 2024-07-22 10:05 deephub 阅读(134) 评论(0) 推荐(0) 编辑

2024年7月20日

多任务高斯过程数学原理和Pytorch实现示例

摘要：高斯过程其在回归任务中的应用我们都很熟悉了，但是我们一般介绍的都是针对单个任务的，也就是单个输出。本文我们将讨论扩展到多任务gp，强调它们的好处和实际实现。本文将介绍如何通过共区域化的内在模型(ICM)和共区域化的线性模型(LMC)，使用高斯过程对多个相关输出进行建模。 https://avoid 阅读全文

posted @ 2024-07-20 10:59 deephub 阅读(93) 评论(0) 推荐(0) 编辑

2024年7月19日

使用Pytorch中从头实现去噪扩散概率模型（DDPM）

摘要：扩散模型通常是一种生成式深度学习模型，它通过学习去噪过程来创建数据。扩散模型有许多变体，其中最流行的是条件文本模型，能够根据提示生成特定的图像。某些扩散模型（如Control-Net）甚至能将图像与某些艺术风格融合。在本文中，我们将构建基础的无条件扩散模型，即去噪扩散概率模型（DDPM）。从探究算阅读全文

posted @ 2024-07-19 11:14 deephub 阅读(57) 评论(0) 推荐(0) 编辑

2024年7月18日

谷歌的时间序列预测的基础模型TimesFM详解和对比测试

摘要： TimesFM是一个为时间序列数据量身定制的大型预训练模型——一个无需大量再训练就能提供准确预测的模型。TimesFM有2亿参数，并在1000亿真实世界时间点上进行了训练。可以允许额外的协变量作为特征。在本文中，我们将介绍模型架构、训练，并进行实际预测案例研究。将对TimesFM的预测能力进行分析阅读全文

posted @ 2024-07-18 11:20 deephub 阅读(177) 评论(0) 推荐(0) 编辑

2024年7月17日

Pytorch的编译新特性TorchDynamo的工作原理和使用示例

摘要：在深度学习中，优化模型性能至关重要，特别是对于需要快速执行和实时推断的应用。而PyTorch在平衡动态图执行与高性能方面常常面临挑战。传统的PyTorch优化技术在处理动态计算图时效果有限，导致训练时间延长和模型性能不佳。TorchDynamo是一种为PyTorch设计的即时（JIT）编译器，通过在阅读全文

posted @ 2024-07-17 09:47 deephub 阅读(28) 评论(0) 推荐(0) 编辑

2024年7月16日

注意力机制中三种掩码技术详解和Pytorch实现

摘要：注意力机制是许多最先进神经网络架构的基本组成部分，比如Transformer模型。注意力机制中的一个关键方面是掩码，它有助于控制信息流，并确保模型适当地处理序列。在这篇文章中，我们将探索在注意力机制中使用的各种类型的掩码，并在PyTorch中实现它们。在神经网络中，掩码是一种用于阻止模型使用输入阅读全文

posted @ 2024-07-16 11:49 deephub 阅读(70) 评论(0) 推荐(0) 编辑

2024年7月15日

Transformer中高级位置编码的介绍和比较：Linear Rope、NTK、YaRN、CoPE

摘要：在处理诸如文本之类的序列时，排序信息显然是至关重要的。为了结合排序信息而不是将序列视为集合，对位置信息进行编码是至关重要的。位置编码通过为每个位置分配嵌入向量并将其添加到相应的标记表示来实现这一点。绝对和相对位置编码是最常见的两种位置编码方式，但是本文将要比较更高级的位置编码方法： 1、RoPE 位阅读全文

posted @ 2024-07-15 10:46 deephub 阅读(31) 评论(0) 推荐(0) 编辑

2024年7月14日

Doping：使用精心设计的合成数据测试和评估异常检测器的技术

摘要：在这篇文章中，我们将探讨测试和评估异常检测器的问题（这是一个众所周知的难题），并提出了一种解决方案被称为“Doping”方法。使用Doping方法，真实数据行会被（通常是）随机修改，修改的方式是确保它们在某些方面可能成为异常值，这时应该被异常检测器检测到。然后通过评估检测器检测Doping记录的效果阅读全文

posted @ 2024-07-14 11:17 deephub 阅读(13) 评论(0) 推荐(0) 编辑

overfit深度学习

公告