05 2024 档案

摘要:在处理长序列时,Transformers面临着注意力分散和噪音增加等挑战。随着序列长度的增长,每个词元必须与更多词元竞争注意力得分,这会导致注意力分数被稀释。这种稀释可能导致不那么集中和相关的上下文表示,特别是影响彼此距离较远的词元。 并且较长的序列更有可能包含不相关或不太相关的信息,从而引入噪声, 阅读全文
posted @ 2024-05-31 10:24 deephub 阅读(29) 评论(0) 推荐(0) 编辑
摘要:特征选择是构建机器学习模型过程中的决定性步骤。为模型和我们想要完成的任务选择好的特征,可以提高性能。 如果我们处理的是高维数据集,那么选择特征就显得尤为重要。它使模型能够更快更好地学习。我们的想法是找到最优数量的特征和最有意义的特征。 在本文中,我们将介绍并实现一种新的通过强化学习策略的特征选择。我 阅读全文
posted @ 2024-05-30 11:03 deephub 阅读(53) 评论(0) 推荐(0) 编辑
摘要:大型语言模型(llm)是在巨大的文本语料库上训练的,在那里他们获得了大量的事实知识。这些知识嵌入到它们的参数中,然后可以在需要时使用。这些模型的知识在培训结束时被“具体化”。在预训练结束时,模型实际上停止学习。 对模型进行对齐或进行指令调优,让模型学习如何充分利用这些知识,以及如何更自然地响应用户的 阅读全文
posted @ 2024-05-29 10:49 deephub 阅读(19) 评论(0) 推荐(0) 编辑
摘要:Transformers 已经确立了自己作为首要模型架构的地位,特别是因为它们在各种任务中的出色表现。但是Transformers 的内存密集型性质和随着词元数量的指数扩展推理成本带来了重大挑战。为了解决这些问题,论文“Linearizing Large Language Models”引入了一种创 阅读全文
posted @ 2024-05-27 11:34 deephub 阅读(20) 评论(0) 推荐(0) 编辑
摘要:前一篇文章总结了关于计算机视觉方面的论文,这篇文章将要总结了2024年5月发表的一些最重要的大语言模型的论文。这些论文涵盖了塑造下一代语言模型的各种主题,从模型优化和缩放到推理、基准测试和增强性能。 大型语言模型(llm)发展迅速,跟上这些领域新颖的研究将有助于引导模型的持续进步,这些模型更有能力, 阅读全文
posted @ 2024-05-26 10:39 deephub 阅读(67) 评论(0) 推荐(0) 编辑
摘要:我们今天总结下2024年5月发表的最重要的论文,重点介绍了计算机视觉领域的最新研究和进展,包括扩散模型、视觉语言模型、图像编辑和生成、视频处理和生成以及图像识别等各个主题。 Diffusion Models 1、Dual3D: Efficient and Consistent Text-to-3D 阅读全文
posted @ 2024-05-25 10:28 deephub 阅读(39) 评论(0) 推荐(0) 编辑
摘要:在PyTorch中,FP8(8-bit 浮点数)是一个较新的数据类型,用于实现高效的神经网络训练和推理。它主要被设计来降低模型运行时的内存占用,并加快计算速度,同时尽量保持训练和推理的准确性。虽然PyTorch官方在标准发布中尚未全面支持FP8,但是在2.2版本中PyTorch已经包含了对FP8的“ 阅读全文
posted @ 2024-05-24 10:49 deephub 阅读(151) 评论(0) 推荐(0) 编辑
摘要:该论文探讨了Mamba架构(包含状态空间模型SSM)是否有必要用于视觉任务,如图像分类、目标检测和语义分割。通过实验证实了了Mamba在视觉识别任务中的效果,认为其不如传统的卷积和注意力模型。 论文理论化认为Mamba更适合具有长序列和自回归特性的任务,而这些特性大多数视觉任务不具备。并进行了一下的 阅读全文
posted @ 2024-05-23 10:00 deephub 阅读(35) 评论(0) 推荐(0) 编辑
摘要:构建大型语言模型应用程序可能会颇具挑战,尤其是当我们在不同的框架(如Langchain和LlamaIndex)之间进行选择时。LlamaIndex在智能搜索和数据检索方面的性能令人瞩目,而LangChain则作为一个更加通用的应用程序框架,提供了更好的与各种平台的兼容性。 本篇文章将介绍如何将Lla 阅读全文
posted @ 2024-05-22 12:25 deephub 阅读(56) 评论(0) 推荐(0) 编辑
摘要:xLSTM的新闻大家可能前几天都已经看过了,原作者提出更强的xLSTM,可以将LSTM扩展到数十亿参数规模,我们今天就来将其与原始的lstm进行一个详细的对比,然后再使用Pytorch实现一个简单的xLSTM。 xLSTM xLSTM 是对传统 LSTM 的一种扩展,它通过引入新的门控机制和记忆结构 阅读全文
posted @ 2024-05-20 09:48 deephub 阅读(611) 评论(0) 推荐(0) 编辑
摘要:这篇论文提出了一种高稀疏性基础大型语言模型(LLMs)的新方法,通过有效的预训练和部署,实现了模型在保持高准确度的同时,显著提升了处理速度。 https://avoid.overfit.cn/post/06961c02a12b48a6a3e1436b527fd2b7 阅读全文
posted @ 2024-05-19 09:49 deephub 阅读(41) 评论(0) 推荐(0) 编辑
摘要:AlphaFold3 是 DeepMind 开发的一款蛋白质结构预测软件,它在AlphaFold2的基础上进行了改进。其中最主要的一个改进就是引入了扩散模型,这使得扩散模型不仅仅可以应用于文生图,其实扩散模型早已经在各个领域中都又所发展,今天我们就来研究一下扩散模型的多元化应用。 https://a 阅读全文
posted @ 2024-05-18 10:49 deephub 阅读(30) 评论(0) 推荐(0) 编辑
摘要:基于图的神经网络是强大的模型,可以学习网络中的复杂模式。在本文中,我们将介绍如何为同构图数据构造PyTorch Data对象,然后训练不同类型的神经网络来预测节点所属的类。这种类型的预测问题通常被称为节点分类。 我们将使用来自Benedek Rozemberczki, Carl Allen和Rik 阅读全文
posted @ 2024-05-17 10:38 deephub 阅读(38) 评论(0) 推荐(0) 编辑
摘要:ATFNet是一个深度学习模型,它结合了时间域和频域模块来捕获时间序列数据中的依赖关系。引入了一种新的加权机制来调整周期性的权重,增强了离散傅立叶变换,并包括一个复杂关系识别的注意力机制,在长期时间序列预测中优于当前方法(每个模型都这么说)。这是4月发布在arxiv上的论文,还包含了源代码。 因为时 阅读全文
posted @ 2024-05-16 10:47 deephub 阅读(89) 评论(0) 推荐(0) 编辑
摘要:时间序列分析是数据科学和机器学习领域最广泛的主题之一:无论是预测金融事件、能源消耗、产品销售还是股票市场趋势,这一领域一直是企业非常感兴趣的领域。 随着机器学习模型的不断进步,使除了传统的统计预测方法(如回归模型、ARIMA模型、指数平滑)外,与机器学习(如基于树的模型)和深度学习(如LSTM网络、 阅读全文
posted @ 2024-05-15 10:59 deephub 阅读(55) 评论(0) 推荐(0) 编辑
摘要:Transformers 是一个强大的架构,但模型因其采用的自注意力机制,虽然能够有效地处理序列数据并捕获长距离依赖关系,但同时也容易导致在训练过程中出现OOM(Out of Memory,内存不足)或者达到GPU的运行时限制。 主要是因为 参数数量庞大:Transformer模型通常包含大量的参数 阅读全文
posted @ 2024-05-13 10:12 deephub 阅读(21) 评论(0) 推荐(0) 编辑
摘要:这是微软再5月刚刚发布的一篇论文提出了一种解码器-解码器架构YOCO,因为只缓存一次KV对,所以可以大量的节省内存。 以前的模型都是通过缓存先前计算的键/值向量,可以在当前生成步骤中重用它们。键值(KV)缓存避免了对每个词元再次编码的过程,这样可以大大提高了推理速度。 但是随着词元数量的增加,KV缓 阅读全文
posted @ 2024-05-12 11:30 deephub 阅读(79) 评论(0) 推荐(0) 编辑
摘要:图机器学习(Graph Machine Learning,简称Graph ML)是机器学习的一个分支,专注于利用图形结构的数据。在图形结构中,数据以图的形式表示,其中的节点(或顶点)表示实体,边(或链接)表示实体之间的关系。 本篇文章将从基础开始介绍什么是图,我们如何描述和表示它们,以及它们的属性是 阅读全文
posted @ 2024-05-11 12:13 deephub 阅读(107) 评论(0) 推荐(0) 编辑
摘要:在机器学习中,L1正则化、L2正则化和Elastic Net正则化是用来避免过拟合的技术,它们通过在损失函数中添加一个惩罚项来实现。 https://avoid.overfit.cn/post/c99ec105e41c4a71a0a1a29735245944 阅读全文
posted @ 2024-05-10 12:55 deephub 阅读(79) 评论(0) 推荐(0) 编辑
摘要:这是4月发表的论文《Better & Faster Large Language Models via Multi-token Prediction》,作者们提出了一种创新的多词元预测方法,该方法在提高大型语言模型(LLMs)的样本效率和推理速度方面展示了显著优势。本文将对该论文进行详细的推荐和分析 阅读全文
posted @ 2024-05-09 11:55 deephub 阅读(17) 评论(0) 推荐(0) 编辑
摘要:前几天火爆的Kolmogorov-Arnold Networks是具有开创性,目前整个人工智能社区都只关注一件事LLM。我们很少看到有挑战人工智能基本原理的论文了,但这篇论文给了我们新的方向。 mlp或多层感知位于AI架构的最底部,几乎是每个深度学习架构的一部分。而KAN直接挑战了这一基础,并且也挑 阅读全文
posted @ 2024-05-08 11:22 deephub 阅读(353) 评论(0) 推荐(0) 编辑
摘要:在深度学习或神经网络中,"循环编码"(Cyclical Encoding)是一种编码技术,其特点是能够捕捉输入或特征中的周期性或循环模式。这种编码方法常用于处理具有周期性行为的任务,比如时间序列预测或理解展示周期性特征的序列。 循环编码的核心思想是将数据的周期性特征转化为网络能够理解的形式。例如,在 阅读全文
posted @ 2024-05-07 10:51 deephub 阅读(85) 评论(0) 推荐(0) 编辑
摘要:当使用LSTM进行时间序列预测时,人们容易陷入一个常见的陷阱。为了解释这个问题,我们需要先回顾一下回归器和预测器是如何工作的。预测算法是这样处理时间序列的: 一个回归问题是这样的: 因为LSTM是一个回归量,我们需要把时间序列转换成一个回归问题。有许多方法可以做到这一点,一般使用窗口和多步的方法,但 阅读全文
posted @ 2024-05-06 10:29 deephub 阅读(144) 评论(0) 推荐(0) 编辑
摘要:嵌入模型是大型语言模型检索增强生成(RAG)的关键组成部分。它们对知识库和用户编写的查询进行编码。 使用与LLM相同领域的训练或微调的嵌入模型可以显著改进RAG系统。然而,寻找或训练这样的嵌入模型往往是一项困难的任务,因为领域内的数据通常是稀缺的。 但是这篇论文LLM2Vec,可以将任何的LLM转换 阅读全文
posted @ 2024-05-05 12:21 deephub 阅读(67) 评论(0) 推荐(0) 编辑
摘要:在时间序列预测领域中,模型的体系结构通常依赖于多层感知器(MLP)或Transformer体系结构。 基于mlp的模型,如N-HiTS, TiDE和TSMixer,可以在保持快速训练的同时获得非常好的预测性能。基于Transformer的模型,如PatchTST和ittransformer也取得了很 阅读全文
posted @ 2024-05-04 10:50 deephub 阅读(215) 评论(0) 推荐(0) 编辑
摘要:我们以前的文章中介绍过将知识图谱与RAG结合的示例,在本篇文章中我们将文本和知识图谱结合,来提升我们RAG的性能 https://avoid.overfit.cn/post/5782ca7c4695427b8c0299ad0887c564 阅读全文
posted @ 2024-05-03 11:18 deephub 阅读(30) 评论(0) 推荐(0) 编辑
摘要:这是4月刚刚发布在arxiv上的论文,介绍了一种名为“Gradformer”的新型图Transformer,它在自注意力机制中引入了指数衰减掩码。以下是主要创新点: 指数衰减掩码: Gradformer在其自注意力模块中集成了衰减掩码。该掩码随着图结构中节点之间的距离减小而呈指数递减。这种设计使模型 阅读全文
posted @ 2024-05-02 09:48 deephub 阅读(46) 评论(0) 推荐(0) 编辑
摘要:图像处理是一种数学计算。数字图像由称为像素的彩色小点组成。每个像素由红、绿、蓝(RGB)三个独立的颜色组成。每个像素中的主色由每个RGB分量的数值决定。 本文将介绍10个使用使用NumPy就可以进行的图像处理步骤,虽然有更强大的图像处理库,但是这些简单的方法可以让我们更加熟练的掌握NumPy的操作。 阅读全文
posted @ 2024-05-01 10:07 deephub 阅读(29) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示