09 2024 档案

摘要:在人工智能快速发展的今天,如何有效利用大型语言模型(LLMs)成为了一个普遍关注的话题。这是9月份的一篇论文,提出了LangGPT结构化提示框架和Minstrel多代理提示生成系统,为非AI专家使用LLMs提供了强大支持。 对于非人工智能专家来说,构建高质量的提示以充分利用LLMs的能力仍然是一个巨 阅读全文
posted @ 2024-09-30 10:00 deephub 阅读(24) 评论(0) 推荐(0) 编辑
摘要:在深度学习模型的训练过程中,学习率作为一个关键的超参数,对模型的收敛速度和最终性能有着重大影响。传统方法通常采用统一的学习率,但随着研究的深入,我们发现为网络的不同层设置不同的学习率可能会带来显著的性能提升。本文将详细探讨这一策略的实施方法及其在PyTorch框架中的具体应用。 https://av 阅读全文
posted @ 2024-09-29 09:56 deephub 阅读(67) 评论(0) 推荐(0) 编辑
摘要:传统上,预测这些趋势涉及针对每种情况的专门模型。最近的进展指向了可以处理广泛预测问题的"基础模型"。 这是9月份刚刚发布的论文TimeMOE。它是一种新型的时间序列预测基础模型,"专家混合"(Mixture of Experts, MOE)在大语言模型中已经有了很大的发展,现在它已经来到了时间序列。 阅读全文
posted @ 2024-09-28 09:49 deephub 阅读(51) 评论(0) 推荐(0) 编辑
摘要:特征工程是机器学习流程中的关键步骤,在此过程中,原始数据被转换为更具意义的特征,以增强模型对数据关系的理解能力。 特征工程通常涉及对现有数据应用转换,以生成或修改数据,这些转换后的数据在机器学习和数据科学的语境下用于训练模型,从而提高模型性能。 本文主要介绍处理数值变量特征工程,将探讨使用Pytho 阅读全文
posted @ 2024-09-27 10:30 deephub 阅读(16) 评论(0) 推荐(0) 编辑
摘要:大语言模型(LLM)的推理能力可以通过测试时聚合策略来改进,即为每个问题生成多个样本并对它们进行聚合以找到更好的答案。这些方法往往会达到饱和点,超过这个点后额外的样本不会带来更多收益。精炼(refinement)提供了另一种选择,它使用模型生成的反馈不仅采样更多解决方案,还提高它们的质量。但是精炼引 阅读全文
posted @ 2024-09-26 10:06 deephub 阅读(22) 评论(0) 推荐(0) 编辑
摘要:在深度学习训练过程中,学习率调度器扮演着至关重要的角色。这主要是因为在训练的不同阶段,模型的学习动态会发生显著变化。 在训练初期,损失函数通常呈现剧烈波动,梯度值较大且不稳定。此阶段的主要目标是在优化空间中快速接近某个局部最小值。然而,过高的学习率可能导致模型跳过潜在的优质局部最小值,从而限制了模型 阅读全文
posted @ 2024-09-25 09:53 deephub 阅读(205) 评论(0) 推荐(0) 编辑
摘要:这是9月发布的一篇论文,Pagliardini等人在其论文中提出了一种新的优化算法——AdEMAMix。这种算法旨在解决当前广泛使用的Adam及其变体(如AdamW)在利用长期梯度信息方面的局限性。研究者们通过巧妙地结合两个不同衰减率的指数移动平均(EMA),设计出了这种新的优化器,以更有效地利用历 阅读全文
posted @ 2024-09-24 09:32 deephub 阅读(22) 评论(0) 推荐(0) 编辑
摘要:在当代深度学习领域,PyTorch 已成为开发和训练神经网络的主要框架之一。然而随着模型复杂度的增加和数据规模的扩大,开发者常常面临各种调试和优化挑战。本文旨在为 PyTorch 开发者提供一个全面的调试指南,涵盖从基础概念到高级技术的广泛内容。 本指南的目标读者包括: 正在学习 PyTorch 的 阅读全文
posted @ 2024-09-23 09:54 deephub 阅读(24) 评论(0) 推荐(0) 编辑
摘要:Polars 最近新开发了一个可以支持 GPU 加速计算的执行引擎。这个引擎可以对超过 100GB 的数据进行交互式操作能。本文将详细讨论 Polars 中DF的概念、GPU 加速如何与 Polars DF协同工作,以及使用新的 CUDA 驱动执行引擎可能带来的性能提升。 https://avoid 阅读全文
posted @ 2024-09-22 12:28 deephub 阅读(32) 评论(0) 推荐(0) 编辑
摘要:检索增强生成(RAG)技术概述 检索增强生成(Retrieval-Augmented Generation,简称 RAG)是一种旨在提升大型语言模型(Large Language Models,LLMs)性能的技术方法。其核心思想是通过整合外部可靠知识库的信息来增强模型的输出质量。 RAG 的工作原 阅读全文
posted @ 2024-09-21 09:49 deephub 阅读(63) 评论(0) 推荐(0) 编辑
摘要:在当前大语言模型(LLM)应用开发的背景下,一个关键问题是如何评估模型输出的准确性。我们需要确定哪些评估指标能够有效衡量提示(prompt)的效果,以及在多大程度上需要对提示进行优化。 为解决这一问题,我们将介绍一个基于双代理的RAG(检索增强生成)评估系统。该系统使用生成代理和反馈代理,基于预定义 阅读全文
posted @ 2024-09-20 16:42 deephub 阅读(15) 评论(0) 推荐(0) 编辑
摘要:在机器学习领域,特征重要性分析是一种广泛应用的模型解释工具。但是特征重要性并不等同于特征质量。本文将探讨特征重要性与特征有效性之间的关系,并引入两个关键概念:预测贡献度和错误贡献度。 核心概念 预测贡献度:衡量特征在模型预测中的权重,反映模型在训练集上识别的模式。这与传统的特征重要性概念相似。 错误 阅读全文
posted @ 2024-09-19 09:59 deephub 阅读(77) 评论(0) 推荐(0) 编辑
摘要:近年来,Vision Transformer(ViT)在计算机视觉领域取得了巨大突破。然而ViT模型通常计算复杂度高,难以在资源受限的移动设备上部署。为了解决这个问题,研究人员提出了Convolutional Additive Self-attention Vision Transformers ( 阅读全文
posted @ 2024-09-18 09:56 deephub 阅读(41) 评论(0) 推荐(0) 编辑
摘要:本文将深入探讨概率分布,详细阐述概率质量函数(PMF)、概率密度函数(PDF)和累积分布函数(CDF)这些核心概念,并通过实际示例进行说明。 在深入探讨PMF、PDF和CDF之前,有必要先简要介绍两种常用的概率分布:正态分布和均匀分布。 正态分布: 也称为高斯分布或钟形曲线,正态分布以其均值为中心对 阅读全文
posted @ 2024-09-17 16:55 deephub 阅读(93) 评论(0) 推荐(0) 编辑
摘要:时间序列概况在日常生活和专业研究中都很常见。简而言之,时间序列概况是一系列连续的数据点 y(0), y(1), ..., y(t) ,其中时间 t 的点依赖于时间 t-1 的前一个点(或更早的时间点)。 在许多应用中,研究者致力于预测时间序列概况的未来行为。存在各种建模方法。这些模型通常基于过去或现 阅读全文
posted @ 2024-09-16 09:45 deephub 阅读(63) 评论(0) 推荐(0) 编辑
摘要:数据科学家在实践中经常面临的一个关键挑战是缺乏足够的标记数据来训练可靠且准确的模型。标记数据对于监督学习任务(如分类或回归)至关重要。但是在许多领域,获取标记数据往往成本高昂、耗时或不切实际。相比之下,未标记数据通常较易获取,但无法直接用于模型训练。 如何利用未标记数据来改进监督学习模型?这正是半监 阅读全文
posted @ 2024-09-15 17:52 deephub 阅读(21) 评论(0) 推荐(0) 编辑
摘要:本文将介绍MemLong,这是一种创新的长文本语言模型生成方法。MemLong通过整合外部检索器来增强模型处理长上下文的能力,从而显著提升了大型语言模型(LLM)在长文本处理任务中的表现。 核心概念 MemLong的设计理念主要包括以下几点: 高效扩展LLM上下文窗口的轻量级方法。 利用不可训练的外 阅读全文
posted @ 2024-09-14 09:27 deephub 阅读(160) 评论(0) 推荐(0) 编辑
摘要:Kolmogorov-Arnold网络(KAN)的提出为深度学习领域带来了重要突破,它作为多层感知器(MLP)的一种替代方案,展现了新的可能性。MLP作为众多深度学习模型的基础构件,包括目前最先进的预测方法如N-BEATS、NHiTS和TSMixer,已经在各个领域得到广泛应用。 但是我们在使用KA 阅读全文
posted @ 2024-09-13 09:41 deephub 阅读(65) 评论(0) 推荐(0) 编辑
摘要:AUROC 指标,顾名思义,是基于 ROC 的,ROC 是一条显示真阳性率与假阳性率关系的曲线。ROC 曲线本身并不假设使用任何特定的阈值。但是曲线上的每个点对应一个特定的阈值。 在下面的图中,蓝色曲线是 ROC。这条曲线下的面积(AUROC)衡量了模型的总体性能,是在所有潜在阈值上的平均值。它衡量 阅读全文
posted @ 2024-09-12 12:14 deephub 阅读(37) 评论(0) 推荐(0) 编辑
摘要:大型语言模型(LLMs)作为一种生成式AI技术,在近两年内获得了显著的关注和应用。但是在实际部署中,LLMs的知识局限性和幻觉问题仍然是一个挑战。检索增强生成(Retrieval Augmented Generation,RAG)通过为LLM提供额外的外部知识和上下文,有效地解决了这些问题。截至20 阅读全文
posted @ 2024-09-11 11:16 deephub 阅读(30) 评论(0) 推荐(0) 编辑
摘要:本文继续深入探讨蒙特卡罗 (MC)方法。这些方法的特点是能够仅从经验中学习,不需要任何环境模型,这与动态规划(DP)方法形成对比。 这一特性极具吸引力 - 因为在实际应用中,环境模型往往是未知的,或者难以精确建模转移概率。以21点游戏为例:尽管我们完全理解游戏规则,但通过DP方法解决它将极为繁琐 - 阅读全文
posted @ 2024-09-10 10:50 deephub 阅读(20) 评论(0) 推荐(0) 编辑
摘要:通过探索看似不相关的大语言模型(LLM)架构之间的潜在联系,我们可能为促进不同模型间的思想交流和提高整体效率开辟新的途径。 尽管Mamba等线性循环神经网络(RNN)和状态空间模型(SSM)近来备受关注,Transformer架构仍然是LLM的主要支柱。这种格局可能即将发生变化:像Jamba、Sam 阅读全文
posted @ 2024-09-09 10:34 deephub 阅读(34) 评论(0) 推荐(0) 编辑
摘要:平稳性是时间序列分析与预测的核心概念。在平稳条件下,时间序列的统计特性(如均值)在时间维度上保持不变,仅存在随机波动。 但是实际数据集中很少观察到完全的平稳性。时间序列通常会经历结构性断裂或变化。这些变化会引入非平稳性,从而改变时间序列的整体分布,这些标志着变化开始的时间点被称为变化点。 在时间序列 阅读全文
posted @ 2024-09-08 09:16 deephub 阅读(139) 评论(0) 推荐(0) 编辑
摘要:图结构在多个领域中扮演着重要角色,它能有效地模拟实体间的连接关系,通过从图中提取有意义的特征,可以获得宝贵的信息提升机器学习算法的性能。 本文将介绍如何利用NetworkX在不同层面(节点、边和整体图)提取重要的图特征。 本文将以NetworkX库中提供的Zachary网络作为示例。这个广为人知的数 阅读全文
posted @ 2024-09-07 10:46 deephub 阅读(15) 评论(0) 推荐(0) 编辑
摘要:Optuna这个备受欢迎的超参数优化框架在近期发布了其第四个主要版本。自2018年首次亮相以来,Optuna不断发展,现已成为机器学习领域的重要工具。其用户社区持续壮大,目前已达到以下里程碑: 10,000+ GitHub星标 每月300万+ 下载量 16,000+ 代码库使用 5,000+ 论文引 阅读全文
posted @ 2024-09-06 10:00 deephub 阅读(55) 评论(0) 推荐(0) 编辑
摘要:当向大语言模型(LLM)提出查询时,模型会为其词汇表中的每个可能标记输出概率值。从这个概率分布中采样一个标记后,我们可以将该标记附加到输入提示中,使LLM能够继续输出下一个标记的概率。这个采样过程可以通过诸如 temperature 和 top_p 等参数进行精确控制。但是你是否曾深入思考过temp 阅读全文
posted @ 2024-09-05 10:35 deephub 阅读(46) 评论(0) 推荐(0) 编辑
摘要:我们上次发了用PyTorch从零开始编写DeepSeek-V2的文章后,有小伙伴留言说希望介绍一下Llama 3。那么今天他就来了,本文将详细指导如何从零开始构建完整的Llama 3模型架构,并在自定义数据集上执行训练和推理。 [图1]:Llama 3架构展示训练和推理流程。因为官方Llama 3论 阅读全文
posted @ 2024-09-04 11:37 deephub 阅读(111) 评论(0) 推荐(0) 编辑
摘要:爱德华·蒙克(Edvard Munch)的"蒙特卡洛赌场的轮盘桌"(1892) 蒙特卡洛方法的起源与发展 1945年,在第二次世界大战即将结束之际,一场看似简单的纸牌游戏引发了计算领域的重大突破。这项突破最终导致了蒙特卡洛方法的诞生。参与曼哈顿计划的科学家斯坦尼斯劳·乌拉姆在康复期间深入思考了纸牌游 阅读全文
posted @ 2024-09-03 10:01 deephub 阅读(148) 评论(0) 推荐(0) 编辑
摘要:注意力机制已经成为深度学习模型,尤其是卷积神经网络(CNN)中不可或缺的组成部分。通过使模型能够选择性地关注输入数据中最相关的部分,注意力机制显著提升了CNN在图像分类、目标检测和语义分割等复杂任务中的性能。本文将全面介绍CNN中的注意力机制,从基本概念到实际实现,为读者提供深入的理解和实践指导。 阅读全文
posted @ 2024-09-02 10:03 deephub 阅读(91) 评论(0) 推荐(0) 编辑
摘要:尽管LLMs的巨大规模使其在广泛的应用场景中表现卓越,但这也为其在实际问题中的应用带来了挑战。本文将探讨如何通过压缩LLMs来应对这些挑战。我们将介绍关键概念,然后通过具体的Python代码实例进行演示。 2023年人工智能领域的主导思想是"更大即更好",改进语言模型的方程相对简单:更多数据 + 更 阅读全文
posted @ 2024-09-01 09:45 deephub 阅读(24) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示