上一页 1 ··· 23 24 25 26 27 28 29 30 31 ··· 109 下一页
摘要: 大型语言模型的目标是理解和生成与人类语言类似的文本。它们经过大规模的训练,能够对输入的文本进行分析,并生成符合语法和语境的回复。这种模型可以用于各种任务,包括问答系统、对话机器人、文本生成、翻译等。 命名实体识别(Named Entity Recognition,简称NER)是一种常见的应用方法,可 阅读全文
posted @ 2024-03-17 11:05 deephub 阅读(98) 评论(0) 推荐(0) 编辑
摘要: LoRA可以说是针对特定任务高效训练大型语言模型的重大突破。它被广泛应用于许多应用中。在本文中,我们将解释LoRA本身的基本概念,然后介绍一些以不同的方式改进LoRA的功能的变体,包括LoRA+、VeRA、LoRA- fa、LoRA-drop、AdaLoRA、DoRA和Delta-LoRA。 Lor 阅读全文
posted @ 2024-03-15 12:13 deephub 阅读(267) 评论(0) 推荐(0) 编辑
摘要: 处理单一任务是强化学习的基础,它的目标是在不确定的环境中采取最佳行动,产生相对于任务的最大长期回报。但是在多代理强化学习中,因为存在多个代理,所以代理之间的关系可以是合作的,也可以是对抗,或者两者的混合。多代理的强化学习引入了更多的复杂性,每个代理的状态不仅包括对自身的观察,还包括对其他代理位置及其 阅读全文
posted @ 2024-03-14 11:33 deephub 阅读(188) 评论(0) 推荐(0) 编辑
摘要: 现在已经是3月中旬了,我们这次推荐一些2月和3月发布的论文。 Why do Learning Rates Transfer? Reconciling Optimization and Scaling Limits for Deep Learning. https://arxiv.org/abs/24 阅读全文
posted @ 2024-03-13 10:43 deephub 阅读(69) 评论(0) 推荐(0) 编辑
摘要: 傅立叶变换是物理学家、数学家、工程师和计算机科学家常用的最有用的工具之一。本篇文章我们将使用Python来实现一个连续函数的傅立叶变换。 我们使用以下定义来表示傅立叶变换及其逆变换。 设 f: ℝ → ℂ 是一个既可积又可平方积分的复值函数。那么它的傅立叶变换,记为 f̂,是由以下复值函数给出: 同 阅读全文
posted @ 2024-03-12 10:10 deephub 阅读(23) 评论(0) 推荐(0) 编辑
摘要: 通过量化可以减少大型语言模型的大小,但是量化是不准确的,因为它在过程中丢失了信息。通常较大的llm可以在精度损失很小的情况下量化到较低的精度,而较小的llm则很难精确量化。 什么时候使用一个小的LLM比量化一个大的LLM更好? 在本文中,我们将通过使用GPTQ对Mistral 7B、Llama 27 阅读全文
posted @ 2024-03-11 11:06 deephub 阅读(45) 评论(0) 推荐(0) 编辑
摘要: Nomic-embed-text是2月份刚发布的,并且是一个完全开源的英文文本嵌入模型,上下文长度为8192。它在处理短文和长文本任务方面都超越了现有的模型,如OpenAI的Ada-002和text-embedding-3-small。该模型有137M个参数在现在可以算是非常小的模型了。 模型、训练 阅读全文
posted @ 2024-03-10 10:27 deephub 阅读(164) 评论(0) 推荐(0) 编辑
摘要: 将LLM集成到项目所花费的成本主要是我们通过API获取LLM返回结果的成本,而这些成本通常是根据处理的令牌数量计算的。我们如何预估我们的令牌数量呢?Tokeniser包可以有效地计算文本输入中的令牌来估算这些成本。本文将介绍如何使用Tokeniser有效地预测和管理费用。 大语言模型(如GPT)中的 阅读全文
posted @ 2024-03-09 09:45 deephub 阅读(11) 评论(0) 推荐(0) 编辑
摘要: GitHub CoPilot拥有超过130万付费用户,部署在5万多个组织中,是世界上部署最广泛的人工智能开发工具。使用LLM进行编程辅助工作不仅提高了生产力,而且正在永久性地改变数字原住民开发软件的方式,我也是它的付费用户之一。 低代码/无代码平台将使应用程序创建、工作流自动化和数据分析更加广泛的应 阅读全文
posted @ 2024-03-08 10:54 deephub 阅读(166) 评论(0) 推荐(0) 编辑
摘要: MQA 是 19 年提出的一种新的 Attention 机制,其能够在保证模型效果的同时加快 decoder 生成 token 的速度。在大语言模型时代被广泛使用,很多LLM都采用了MQA,如Falcon、PaLM、StarCoder等。 在介绍MQA 之前,我们先回顾一下传统的多头注意力 Mult 阅读全文
posted @ 2024-03-07 09:44 deephub 阅读(44) 评论(0) 推荐(0) 编辑
上一页 1 ··· 23 24 25 26 27 28 29 30 31 ··· 109 下一页