04 2024 档案

摘要:从左至右依次为托马斯·贝叶斯、皮埃尔-西蒙·拉普拉斯和哈罗德·杰弗里斯——逆概率(即现在所说的客观贝叶斯分析)发展中的关键人物。[24] https://avoid.overfit.cn/post/8c7a66d96347413db8925c5d02e5ecf0 阅读全文
posted @ 2024-04-30 16:46 deephub 阅读(6) 评论(0) 推荐(0) 编辑
摘要:Command-R+, Mixtral-8x22b和Llama 3 70b都在最近的几周内发布了,这些模型是巨大的。它们都有超过700亿个参数: Command-R+: 104B参数 Mixtral-8x22b:具有141B参数的混合专家(MoE)模型 Llama 370b: 70.6B参数 你能在 阅读全文
posted @ 2024-04-29 10:49 deephub 阅读(31) 评论(0) 推荐(0) 编辑
摘要:本文将介绍如何通过学习曲线来有效识别机器学习模型中的过拟合和欠拟合。 https://avoid.overfit.cn/post/daca44bbf042471bbd50b1a1514895cf 阅读全文
posted @ 2024-04-28 15:47 deephub 阅读(15) 评论(0) 推荐(0) 编辑
摘要:本文将整理4月发表的计算机视觉的重要论文,重点介绍了计算机视觉领域的最新研究和进展,包括图像识别、视觉模型优化、生成对抗网络(gan)、图像分割、视频分析等各个子领域 https://avoid.overfit.cn/post/6ea12c7caca64be2a03317a8bce92bed 阅读全文
posted @ 2024-04-27 16:41 deephub 阅读(63) 评论(0) 推荐(0) 编辑
摘要:时间序列是最流行的数据类型之一。视频,图像,像素,信号,任何有时间成分的东西都可以转化为时间序列。 在本文中将在分析时间序列时使用的常见的处理方法。这些方法可以帮助你获得有关数据本身的见解,为建模做好准备并且可以得出一些初步结论。 我们将分析一个气象时间序列。利用逐时ERA5 Land[1]研究20 阅读全文
posted @ 2024-04-26 10:15 deephub 阅读(71) 评论(0) 推荐(0) 编辑
摘要:语义搜索和检索增强生成(RAG)正在彻底改变我们的在线交互方式。实现这些突破性进展的支柱就是向量数据库。选择正确的向量数据库能是一项艰巨的任务。本文为你提供四个重要的开源向量数据库之间的全面比较,希望你能够选择出最符合自己特定需求的数据库。 什么是向量数据库? 向量数据库是一种将数据存储为高维向量的 阅读全文
posted @ 2024-04-25 11:22 deephub 阅读(339) 评论(0) 推荐(0) 编辑
摘要:Phi-3系列 Phi-3是一系列先进的语言模型,专注于在保持足够紧凑以便在移动设备上部署的同时,实现高性能。Phi-3系列包括不同大小的模型: Phi-3-mini(38亿参数) - 该模型在3.3万亿个令牌上进行训练,设计得足够小,可以在现代智能手机上运行。尽管体积紧凑,它的性能却可与更大的模型 阅读全文
posted @ 2024-04-24 12:13 deephub 阅读(65) 评论(0) 推荐(0) 编辑
摘要:在数据科学和分析中,理解高维数据集中的底层模式是至关重要的。t-SNE已成为高维数据可视化的有力工具。它通过将数据投射到一个较低维度的空间,提供了对数据结构的详细洞察。但是随着数据集的增长,标准的t-SNE算法在计算有些困难,所以发展出了Barnes-Hut t-SNE这个改进算法,它提供了一个有效 阅读全文
posted @ 2024-04-23 10:52 deephub 阅读(76) 评论(0) 推荐(0) 编辑
摘要:在不断发展的大型语言模型(LLMs)领域中,用于支持这些模型的工具和技术正以与模型本身一样快的速度进步。在这篇文章中,我们将总结5种搭建开源大语言模型服务的方法,每种都附带详细的操作步骤,以及各自的优缺点。 https://avoid.overfit.cn/post/efad539d09694749 阅读全文
posted @ 2024-04-22 11:02 deephub 阅读(35) 评论(0) 推荐(0) 编辑
摘要:ORPO是一种新的微调技术,它将传统的监督微调和偏好对齐阶段结合到一个过程中。减少了训练所需的计算资源和时间。论文的实证结果表明,ORPO在各种模型大小和基准上都优于其他对齐方法,所以这次我们就来使用最新的Llama 3来测试下ORPO的效果。 我们将使用ORPO和TRL库对新的Llama 3 8b 阅读全文
posted @ 2024-04-21 10:04 deephub 阅读(137) 评论(0) 推荐(0) 编辑
摘要:时间序列数据的特征工程是一种技术,用于从时间序列数据中提取信息或构造特征,这些特征可用于提高机器学习模型的性能。以下是一些常见的时间序列特征工程技术: 滚动统计量:计算时间窗口内的统计量,如平均值、中位数、标准偏差、最小值和最大值。这些统计量可以捕捉到时间序列在不同时间段的行为变化。 滞后特征:创建 阅读全文
posted @ 2024-04-20 10:46 deephub 阅读(398) 评论(0) 推荐(0) 编辑
摘要:关于检索增强生成(RAG)的文章已经有很多了,如果我们能创建出可训练的检索器,或者说整个RAG可以像微调大型语言模型(LLM)那样定制化的话,那肯定能够获得更好的结果。但是当前RAG的问题在于各个子模块之间并没有完全协调,就像一个缝合怪一样,虽然能够工作但各部分并不和谐,所以我们这里介绍RAG 2. 阅读全文
posted @ 2024-04-19 11:55 deephub 阅读(236) 评论(0) 推荐(0) 编辑
摘要:这篇文章将演示如何可视化PyTorch激活层。可视化激活,即模型内各层的输出,对于理解深度神经网络如何处理视觉信息至关重要,这有助于诊断模型行为并激发改进。 我们先安装必要的库: https://avoid.overfit.cn/post/c63b9b1130fe425ea5b7d0bedf209b 阅读全文
posted @ 2024-04-17 09:51 deephub 阅读(13) 评论(0) 推荐(0) 编辑
摘要:现在有许多方法可以使大型语言模型(LLM)与人类偏好保持一致。以人类反馈为基础的强化学习(RLHF)是最早的方法之一,并促成了ChatGPT的诞生,但RLHF的成本非常高。与RLHF相比,DPO、IPO和KTO的成本明显更低,因为它们不需要奖励模型。 虽然DPO和IPO的成本较低,但它们仍需训练两个 阅读全文
posted @ 2024-04-16 10:04 deephub 阅读(178) 评论(0) 推荐(0) 编辑
摘要:在我们周围的各个领域,从分子结构到社交网络,再到城市设计结构,到处都有相互关联的图数据。图神经网络(GNN)作为一种强大的方法,正在用于建模和学习这类数据的空间和图结构。它已经被应用于蛋白质结构和其他分子应用,例如药物发现,以及模拟系统,如社交网络。标准的GNN可以结合来自其他机器学习模型的想法,比 阅读全文
posted @ 2024-04-15 10:02 deephub 阅读(220) 评论(0) 推荐(0) 编辑
摘要:Moirai 是 Salesforce 开发的用于时间序列预测的基础模型。它被设计为一种通用模型,能够预测广泛的时间序列。为了实现这种灵活性,该模型解决了时间序列数据相关的几个挑战,包括: 处理各种数据频率(小时、日、周等); 适应任何数量和类型的协变量,无论它们在未来是否已知; 使用灵活的分布生成 阅读全文
posted @ 2024-04-14 11:33 deephub 阅读(230) 评论(0) 推荐(0) 编辑
摘要:我们开始看4月的新论文了,这是来自北京大学人工智能研究所、北京大学智能科学与技术学院的研究人员发布的Principal Singular Values and Singular Vectors Adaptation(PiSSA)方法。 PiSSA和LoRA一样,都是基于这样的前提:对模型参数的改变会 阅读全文
posted @ 2024-04-12 11:43 deephub 阅读(62) 评论(0) 推荐(0) 编辑
摘要:今天我们来总结以下大型语言模型面试中常问的问题 https://avoid.overfit.cn/post/5cbf407986584cfab3efd5ee3801b697 阅读全文
posted @ 2024-04-11 11:33 deephub 阅读(60) 评论(0) 推荐(0) 编辑
摘要:在本篇文章我们将详细讨论推测解码,这是一种可以将LLM推理速度提高约2 - 3倍而不降低任何准确性的方法。我们还将会介绍推测解码代码实现,并看看它与原始transformer 实现相比到底能快多少。 推测解码是一种“先推测后验证” (Draft-then-Verify) 的解码算法,涉及并行运行两个 阅读全文
posted @ 2024-04-10 10:01 deephub 阅读(106) 评论(0) 推荐(0) 编辑
摘要:本文将介绍大语言模型中使用的不同令牌遮蔽技术,并比较它们的优点,以及使用Pytorch实现以了解它们的底层工作原理。 令牌掩码Token Masking是一种广泛应用于语言模型分类变体和生成模型训练的策略。BERT语言模型首先使用,并被用于许多变体(RoBERTa, ALBERT, DeBERTa… 阅读全文
posted @ 2024-04-09 11:33 deephub 阅读(20) 评论(0) 推荐(0) 编辑
摘要:如果你一直在关注大型语言模型的架构,你可能会在最新的模型和研究论文中看到“SwiGLU”这个词。SwiGLU可以说是在大语言模型中最常用到的激活函数,我们本篇文章就来对他进行详细的介绍。SwiGLU其实是2020年谷歌提出的激活函数,它结合了SWISH和GLU两者的特点。 我们一个一个来介绍: ht 阅读全文
posted @ 2024-04-08 10:09 deephub 阅读(451) 评论(0) 推荐(0) 编辑
摘要:归一化层是深度神经网络体系结构中的关键,在训练过程中确保各层的输入分布一致,这对于高效和稳定的学习至关重要。归一化技术的选择(Batch, Layer, GroupNormalization)会显著影响训练动态和最终的模型性能。每种技术的相对优势并不总是明确的,随着网络体系结构、批处理大小和特定任务 阅读全文
posted @ 2024-04-07 09:58 deephub 阅读(56) 评论(0) 推荐(0) 编辑
摘要:分组查询注意力 (Grouped Query Attention) 是一种在大型语言模型中的多查询注意力 (MQA) 和多头注意力 (MHA) 之间进行插值的方法,它的目标是在保持 MQA 速度的同时实现 MHA 的质量。 这篇文章中,我们将解释GQA的思想以及如何将其转化为代码。 GQA是在论文 阅读全文
posted @ 2024-04-03 10:12 deephub 阅读(335) 评论(0) 推荐(0) 编辑
摘要:自 2017 年发表“ Attention Is All You Need ”论文以来,Transformer 架构一直是自然语言处理 (NLP) 领域的基石。它的设计多年来基本没有变化,随着旋转位置编码 (RoPE) 的引入,2022年标志着该领域的重大发展。 旋转位置嵌入是最先进的 NLP 位置 阅读全文
posted @ 2024-04-01 10:25 deephub 阅读(360) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示