03 2024 档案

摘要:这是3月26日新发的的论文,微软的研究人员简化的基于mamba的体系结构,并且将其同时应用在图像和时间序列中并且取得了良好的成绩。 语言模型的发展正在从大型语言模型(LLMs)向小型语言模型(SLMs)转变。llm和slm的核心都是transformers,它是llm和slm的构建模块。虽然tran 阅读全文
posted @ 2024-03-31 10:35 deephub 阅读(104) 评论(0) 推荐(0) 编辑
摘要:大型语言模型(llm)已经变得越来越复杂,能够根据各种提示和问题生成人类质量的文本。但是他们的推理能力让仍然是个问题,与人类不同LLM经常在推理中涉及的隐含步骤中挣扎,这回导致输出可能在事实上不正确或缺乏逻辑。 考虑以下场景:正在阅读一个复杂的数学证明。虽然最终的答案可能很清楚,但关键在于理解初始条 阅读全文
posted @ 2024-03-30 19:40 deephub 阅读(125) 评论(0) 推荐(0) 编辑
摘要:由于Mixtral的发布,专家混合(MoE)架构在最近几个月变得流行起来。虽然Mixtral和其他MoE架构是从头开始预训练的,但最近出现了另一种创建MoE的方法:Arcee的MergeKit库可以通过集成几个预训练模型来创建moe。这些人通常被称为frankenMoEs或MoErges,以区别于预 阅读全文
posted @ 2024-03-29 11:57 deephub 阅读(75) 评论(0) 推荐(0) 编辑
摘要:2023年的大型语言模型领域经历了许多快速的发展和创新,发展出了更大的模型规模并且获得了更好的性能,那么我们普通用户是否可以定制我们需要的大型语言模型呢? 首先你需要有硬件的资源,对于硬件来说有2个路径可以选。高性能和低性能,这里的区别就是是功率,因为精度和消息长度直接与参数计数和GPU功率成比例。 阅读全文
posted @ 2024-03-28 11:21 deephub 阅读(28) 评论(0) 推荐(0) 编辑
摘要:这是一篇非常有意思的论文,它将时间序列分块并作为语言模型中的一个token来进行学习,并且得到了很好的效果。 Chronos是一个对时间序列数据的概率模型进行预训练的框架,它将这些值标记为与基于transformer的模型(如T5)一起使用。模型将序列的值缩放和量化到一个固定的词汇表,并在通过高斯过 阅读全文
posted @ 2024-03-27 11:05 deephub 阅读(95) 评论(0) 推荐(0) 编辑
摘要:训练大型语言模型(llm),即使是那些“只有”70亿个参数的模型,也是一项计算密集型的任务。这种水平的训练需要的资源超出了大多数个人爱好者的能力范围。为了弥补这一差距,出现了低秩适应(LoRA)等参数高效方法,可以在消费级gpu上对大量模型进行微调。 GaLore是一种新的方法,它不是通过直接减少参 阅读全文
posted @ 2024-03-25 10:01 deephub 阅读(73) 评论(0) 推荐(0) 编辑
摘要:在当今以数据驱动为主导的世界里,清晰且具有洞察力的数据可视化至关重要。然而,在创建数据可视化时很容易犯错误,这可能导致对数据的错误解读。本文将探讨一些常见的糟糕数据可视化示例,并提供如何避免这些错误的建议。 本文总结了8个数据可视化的典型错误,在日常工作中我们应该尽量避免,这样才可以制作出更好的可视 阅读全文
posted @ 2024-03-24 10:13 deephub 阅读(40) 评论(0) 推荐(0) 编辑
摘要:提高llm中注意力机制效率的努力主要集中在两种方法上:优化单设备计算和存储能力,如FlashAttention,以及利用多设备的分布式系统,如RingAttention。 FlashAttention通过使用静态随机存储器(SRAM)来存储中间状态,而不是依赖于高带宽存储器(HBM)来提高注意力计算 阅读全文
posted @ 2024-03-23 13:21 deephub 阅读(23) 评论(0) 推荐(0) 编辑
摘要:CLIP的英文全称是Contrastive Language-Image Pre-training,即一种基于对比文本-图像对的预训练方法或者模型。CLIP是一种基于对比学习的多模态模型,CLIP的训练数据是文本-图像对:一张图像和它对应的文本描述,这里希望通过对比学习,模型能够学习到文本-图像对的 阅读全文
posted @ 2024-03-22 11:31 deephub 阅读(291) 评论(0) 推荐(0) 编辑
摘要:时间序列分析跨越了一系列广泛的应用,从天气预报到通过心电图进行健康监测。 但是由于缺乏大型且整合的公开时间序列数据,所以在时间序列数据上预训练大型模型具有挑战性。为了应对这些挑战,MOMENT团队整理了一个庞大而多样的公共时间序列集合,作者将其称为Time-series Pile。代码地址我们会在文 阅读全文
posted @ 2024-03-21 10:19 deephub 阅读(126) 评论(0) 推荐(0) 编辑
摘要:在这篇文章中,我们介绍多项式朴素贝叶斯分类器是如何工作的,然后使用scikit-learn作为实际工作的示例来介绍如何使用。 与假设高斯分布的高斯朴素贝叶斯分类器相反,多项式朴素贝叶斯分类器依赖于多项分布。通过学习/估计每个类的多项概率来“拟合”多项式分类器-使用平滑技巧来处理空特征。Multino 阅读全文
posted @ 2024-03-20 10:52 deephub 阅读(52) 评论(0) 推荐(0) 编辑
摘要:Mixtral-8x7B是最好的开源llm之一。但是消费级硬件上对其进行微调也是非常具有挑战性的。因为模型需要96.8 GB内存。而微调则需要更多的内存来存储状态和训练数据。比如说80gb RAM的H100 GPU是不够的。 这时我们就想到了QLoRA,它将模型大小除以4,同时通过仅调整LoRA适配 阅读全文
posted @ 2024-03-19 09:38 deephub 阅读(77) 评论(0) 推荐(0) 编辑
摘要:从去年开始,针对LLM的研究成为了大家关注的焦点。但是其实针对于计算机视觉的研究领域也在快速的发展。每周都有计算机视觉领域的创新研究,包括图像识别、视觉模型优化、生成对抗网络(gan)、图像分割、视频分析等。 我们今天来总结一下2024年3月上半月份发表的最重要的论文,无论您是研究人员、从业者还是爱 阅读全文
posted @ 2024-03-18 18:19 deephub 阅读(104) 评论(0) 推荐(0) 编辑
摘要:最近时间序列预测预测领域的最新进展受到了各个领域(包括文本、图像和语音)成功开发基础模型的影响,例如文本(如ChatGPT)、文本到图像(如Midjourney)和文本到语音(如Eleven Labs)。这些模型的广泛采用导致了像TimeGPT[1]这样的模型的出现,这些模型利用了类似于它们在文本、 阅读全文
posted @ 2024-03-17 11:05 deephub 阅读(56) 评论(0) 推荐(0) 编辑
摘要:大型语言模型的目标是理解和生成与人类语言类似的文本。它们经过大规模的训练,能够对输入的文本进行分析,并生成符合语法和语境的回复。这种模型可以用于各种任务,包括问答系统、对话机器人、文本生成、翻译等。 命名实体识别(Named Entity Recognition,简称NER)是一种常见的应用方法,可 阅读全文
posted @ 2024-03-17 11:05 deephub 阅读(106) 评论(0) 推荐(0) 编辑
摘要:LoRA可以说是针对特定任务高效训练大型语言模型的重大突破。它被广泛应用于许多应用中。在本文中,我们将解释LoRA本身的基本概念,然后介绍一些以不同的方式改进LoRA的功能的变体,包括LoRA+、VeRA、LoRA- fa、LoRA-drop、AdaLoRA、DoRA和Delta-LoRA。 Lor 阅读全文
posted @ 2024-03-15 12:13 deephub 阅读(290) 评论(0) 推荐(0) 编辑
摘要:处理单一任务是强化学习的基础,它的目标是在不确定的环境中采取最佳行动,产生相对于任务的最大长期回报。但是在多代理强化学习中,因为存在多个代理,所以代理之间的关系可以是合作的,也可以是对抗,或者两者的混合。多代理的强化学习引入了更多的复杂性,每个代理的状态不仅包括对自身的观察,还包括对其他代理位置及其 阅读全文
posted @ 2024-03-14 11:33 deephub 阅读(199) 评论(0) 推荐(0) 编辑
摘要:现在已经是3月中旬了,我们这次推荐一些2月和3月发布的论文。 Why do Learning Rates Transfer? Reconciling Optimization and Scaling Limits for Deep Learning. https://arxiv.org/abs/24 阅读全文
posted @ 2024-03-13 10:43 deephub 阅读(79) 评论(0) 推荐(0) 编辑
摘要:傅立叶变换是物理学家、数学家、工程师和计算机科学家常用的最有用的工具之一。本篇文章我们将使用Python来实现一个连续函数的傅立叶变换。 我们使用以下定义来表示傅立叶变换及其逆变换。 设 f: ℝ → ℂ 是一个既可积又可平方积分的复值函数。那么它的傅立叶变换,记为 f̂,是由以下复值函数给出: 同 阅读全文
posted @ 2024-03-12 10:10 deephub 阅读(26) 评论(0) 推荐(0) 编辑
摘要:通过量化可以减少大型语言模型的大小,但是量化是不准确的,因为它在过程中丢失了信息。通常较大的llm可以在精度损失很小的情况下量化到较低的精度,而较小的llm则很难精确量化。 什么时候使用一个小的LLM比量化一个大的LLM更好? 在本文中,我们将通过使用GPTQ对Mistral 7B、Llama 27 阅读全文
posted @ 2024-03-11 11:06 deephub 阅读(55) 评论(0) 推荐(0) 编辑
摘要:Nomic-embed-text是2月份刚发布的,并且是一个完全开源的英文文本嵌入模型,上下文长度为8192。它在处理短文和长文本任务方面都超越了现有的模型,如OpenAI的Ada-002和text-embedding-3-small。该模型有137M个参数在现在可以算是非常小的模型了。 模型、训练 阅读全文
posted @ 2024-03-10 10:27 deephub 阅读(308) 评论(0) 推荐(0) 编辑
摘要:将LLM集成到项目所花费的成本主要是我们通过API获取LLM返回结果的成本,而这些成本通常是根据处理的令牌数量计算的。我们如何预估我们的令牌数量呢?Tokeniser包可以有效地计算文本输入中的令牌来估算这些成本。本文将介绍如何使用Tokeniser有效地预测和管理费用。 大语言模型(如GPT)中的 阅读全文
posted @ 2024-03-09 09:45 deephub 阅读(12) 评论(0) 推荐(0) 编辑
摘要:GitHub CoPilot拥有超过130万付费用户,部署在5万多个组织中,是世界上部署最广泛的人工智能开发工具。使用LLM进行编程辅助工作不仅提高了生产力,而且正在永久性地改变数字原住民开发软件的方式,我也是它的付费用户之一。 低代码/无代码平台将使应用程序创建、工作流自动化和数据分析更加广泛的应 阅读全文
posted @ 2024-03-08 10:54 deephub 阅读(192) 评论(0) 推荐(0) 编辑
摘要:MQA 是 19 年提出的一种新的 Attention 机制,其能够在保证模型效果的同时加快 decoder 生成 token 的速度。在大语言模型时代被广泛使用,很多LLM都采用了MQA,如Falcon、PaLM、StarCoder等。 在介绍MQA 之前,我们先回顾一下传统的多头注意力 Mult 阅读全文
posted @ 2024-03-07 09:44 deephub 阅读(48) 评论(0) 推荐(0) 编辑
摘要:Hawk和Griffin是DeepMind推出的新型循环神经网络(RNNs),2月刚刚发布在arxiv上。Hawk通过使用门控线性递归(gated linear recurrences)超越了Mamba的性能,而Griffin则是一种混合型模型,结合了门控线性递归和局部注意力(local atten 阅读全文
posted @ 2024-03-06 10:58 deephub 阅读(34) 评论(0) 推荐(0) 编辑
摘要:在本篇文章中我们将介绍如何开发一个深度学习模型来检测人工智能生成的图像 大多数用于检测人工智能生成图像的深度学习方法取决于生成图像的方法,或者取决于图像的性质/语义,其中模型只能检测人工智能生成的人、脸、汽车等特定对象。 但是这篇论文“Rich and Poor Texture Contrast: 阅读全文
posted @ 2024-03-05 10:27 deephub 阅读(46) 评论(0) 推荐(0) 编辑
摘要:2017年推出《Attention is All You Need》以来,transformers 已经成为自然语言处理(NLP)的最新技术。2021年,《An Image is Worth 16x16 Words》,成功地将transformers 用于计算机视觉任务。从那时起,许多基于trans 阅读全文
posted @ 2024-03-04 10:42 deephub 阅读(28) 评论(0) 推荐(0) 编辑
摘要:TensorRT-LLM是一个由Nvidia设计的开源框架,用于在生产环境中提高大型语言模型的性能。该框架是基于 TensorRT 深度学习编译框架来构建、编译并执行计算图,并借鉴了许多 FastTransformer 中高效的 Kernels 实现,并且可以利用 NCCL 完成设备之间的通讯。 虽 阅读全文
posted @ 2024-03-03 10:08 deephub 阅读(89) 评论(0) 推荐(0) 编辑
摘要:在某些情况下,我们需要用Pytorch做一些高级的索引/选择,所以在这篇文章中,我们将介绍这类任务的三种最常见的方法:torch.index_select, torch.gather and torch.take 我们首先从一个2D示例开始,并将选择结果可视化,然后延申到3D和更复杂场景。最后以表格 阅读全文
posted @ 2024-03-02 13:55 deephub 阅读(16) 评论(0) 推荐(0) 编辑
摘要:随着开源大型语言模型的性能不断提高,编写和分析代码、推荐、文本摘要和问答(QA)对的性能都有了很大的提高。但是当涉及到QA时,LLM通常会在未训练数据的相关的问题上有所欠缺,很多内部文件都保存在公司内部,以确保合规性、商业秘密或隐私。当查询这些文件时,会使得LLM产生幻觉,产生不相关、捏造或不一致的 阅读全文
posted @ 2024-03-01 10:25 deephub 阅读(44) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示