上一页 1 ··· 10 11 12 13 14 15 16 17 18 ··· 98 下一页
摘要: 自 2017 年发表“ Attention Is All You Need ”论文以来,Transformer 架构一直是自然语言处理 (NLP) 领域的基石。它的设计多年来基本没有变化,随着旋转位置编码 (RoPE) 的引入,2022年标志着该领域的重大发展。 旋转位置嵌入是最先进的 NLP 位置 阅读全文
posted @ 2024-04-01 10:25 deephub 阅读(175) 评论(0) 推荐(0) 编辑
摘要: 这是3月26日新发的的论文,微软的研究人员简化的基于mamba的体系结构,并且将其同时应用在图像和时间序列中并且取得了良好的成绩。 语言模型的发展正在从大型语言模型(LLMs)向小型语言模型(SLMs)转变。llm和slm的核心都是transformers,它是llm和slm的构建模块。虽然tran 阅读全文
posted @ 2024-03-31 10:35 deephub 阅读(58) 评论(0) 推荐(0) 编辑
摘要: 大型语言模型(llm)已经变得越来越复杂,能够根据各种提示和问题生成人类质量的文本。但是他们的推理能力让仍然是个问题,与人类不同LLM经常在推理中涉及的隐含步骤中挣扎,这回导致输出可能在事实上不正确或缺乏逻辑。 考虑以下场景:正在阅读一个复杂的数学证明。虽然最终的答案可能很清楚,但关键在于理解初始条 阅读全文
posted @ 2024-03-30 19:40 deephub 阅读(32) 评论(0) 推荐(0) 编辑
摘要: 由于Mixtral的发布,专家混合(MoE)架构在最近几个月变得流行起来。虽然Mixtral和其他MoE架构是从头开始预训练的,但最近出现了另一种创建MoE的方法:Arcee的MergeKit库可以通过集成几个预训练模型来创建moe。这些人通常被称为frankenMoEs或MoErges,以区别于预 阅读全文
posted @ 2024-03-29 11:57 deephub 阅读(45) 评论(0) 推荐(0) 编辑
摘要: 2023年的大型语言模型领域经历了许多快速的发展和创新,发展出了更大的模型规模并且获得了更好的性能,那么我们普通用户是否可以定制我们需要的大型语言模型呢? 首先你需要有硬件的资源,对于硬件来说有2个路径可以选。高性能和低性能,这里的区别就是是功率,因为精度和消息长度直接与参数计数和GPU功率成比例。 阅读全文
posted @ 2024-03-28 11:21 deephub 阅读(18) 评论(0) 推荐(0) 编辑
摘要: 这是一篇非常有意思的论文,它将时间序列分块并作为语言模型中的一个token来进行学习,并且得到了很好的效果。 Chronos是一个对时间序列数据的概率模型进行预训练的框架,它将这些值标记为与基于transformer的模型(如T5)一起使用。模型将序列的值缩放和量化到一个固定的词汇表,并在通过高斯过 阅读全文
posted @ 2024-03-27 11:05 deephub 阅读(44) 评论(0) 推荐(0) 编辑
摘要: 训练大型语言模型(llm),即使是那些“只有”70亿个参数的模型,也是一项计算密集型的任务。这种水平的训练需要的资源超出了大多数个人爱好者的能力范围。为了弥补这一差距,出现了低秩适应(LoRA)等参数高效方法,可以在消费级gpu上对大量模型进行微调。 GaLore是一种新的方法,它不是通过直接减少参 阅读全文
posted @ 2024-03-25 10:01 deephub 阅读(48) 评论(0) 推荐(0) 编辑
摘要: 在当今以数据驱动为主导的世界里,清晰且具有洞察力的数据可视化至关重要。然而,在创建数据可视化时很容易犯错误,这可能导致对数据的错误解读。本文将探讨一些常见的糟糕数据可视化示例,并提供如何避免这些错误的建议。 本文总结了8个数据可视化的典型错误,在日常工作中我们应该尽量避免,这样才可以制作出更好的可视 阅读全文
posted @ 2024-03-24 10:13 deephub 阅读(11) 评论(0) 推荐(0) 编辑
摘要: 提高llm中注意力机制效率的努力主要集中在两种方法上:优化单设备计算和存储能力,如FlashAttention,以及利用多设备的分布式系统,如RingAttention。 FlashAttention通过使用静态随机存储器(SRAM)来存储中间状态,而不是依赖于高带宽存储器(HBM)来提高注意力计算 阅读全文
posted @ 2024-03-23 13:21 deephub 阅读(12) 评论(0) 推荐(0) 编辑
摘要: CLIP的英文全称是Contrastive Language-Image Pre-training,即一种基于对比文本-图像对的预训练方法或者模型。CLIP是一种基于对比学习的多模态模型,CLIP的训练数据是文本-图像对:一张图像和它对应的文本描述,这里希望通过对比学习,模型能够学习到文本-图像对的 阅读全文
posted @ 2024-03-22 11:31 deephub 阅读(198) 评论(0) 推荐(0) 编辑
上一页 1 ··· 10 11 12 13 14 15 16 17 18 ··· 98 下一页