deephub

2024年3月17日

摘要：大型语言模型的目标是理解和生成与人类语言类似的文本。它们经过大规模的训练，能够对输入的文本进行分析，并生成符合语法和语境的回复。这种模型可以用于各种任务，包括问答系统、对话机器人、文本生成、翻译等。命名实体识别（Named Entity Recognition，简称NER）是一种常见的应用方法，可阅读全文

posted @ 2024-03-17 11:05 deephub 阅读(98) 评论(0) 推荐(0) 编辑

2024年3月15日

LoRA及其变体概述：LoRA, DoRA, AdaLoRA, Delta-LoRA

摘要： LoRA可以说是针对特定任务高效训练大型语言模型的重大突破。它被广泛应用于许多应用中。在本文中，我们将解释LoRA本身的基本概念，然后介绍一些以不同的方式改进LoRA的功能的变体，包括LoRA+、VeRA、LoRA- fa、LoRA-drop、AdaLoRA、DoRA和Delta-LoRA。 Lor 阅读全文

posted @ 2024-03-15 12:13 deephub 阅读(267) 评论(0) 推荐(0) 编辑

2024年3月14日

MADQN：多代理合作强化学习

摘要：处理单一任务是强化学习的基础，它的目标是在不确定的环境中采取最佳行动，产生相对于任务的最大长期回报。但是在多代理强化学习中，因为存在多个代理，所以代理之间的关系可以是合作的，也可以是对抗，或者两者的混合。多代理的强化学习引入了更多的复杂性，每个代理的状态不仅包括对自身的观察，还包括对其他代理位置及其阅读全文

posted @ 2024-03-14 11:33 deephub 阅读(188) 评论(0) 推荐(0) 编辑

2024年3月13日

2024年3月最新的深度学习论文推荐

摘要：现在已经是3月中旬了，我们这次推荐一些2月和3月发布的论文。 Why do Learning Rates Transfer? Reconciling Optimization and Scaling Limits for Deep Learning. https://arxiv.org/abs/24 阅读全文

posted @ 2024-03-13 10:43 deephub 阅读(69) 评论(0) 推荐(0) 编辑

2024年3月12日

傅里叶变换算法和Python代码实现

摘要：傅立叶变换是物理学家、数学家、工程师和计算机科学家常用的最有用的工具之一。本篇文章我们将使用Python来实现一个连续函数的傅立叶变换。我们使用以下定义来表示傅立叶变换及其逆变换。设 f: ℝ → ℂ 是一个既可积又可平方积分的复值函数。那么它的傅立叶变换，记为 f̂，是由以下复值函数给出：同阅读全文

posted @ 2024-03-12 10:10 deephub 阅读(23) 评论(0) 推荐(0) 编辑

2024年3月11日

从16-bit 到 1.58-bit ：大模型内存效率和准确性之间的最佳权衡

摘要：通过量化可以减少大型语言模型的大小，但是量化是不准确的，因为它在过程中丢失了信息。通常较大的llm可以在精度损失很小的情况下量化到较低的精度，而较小的llm则很难精确量化。什么时候使用一个小的LLM比量化一个大的LLM更好? 在本文中，我们将通过使用GPTQ对Mistral 7B、Llama 27 阅读全文

posted @ 2024-03-11 11:06 deephub 阅读(45) 评论(0) 推荐(0) 编辑

2024年3月10日

Nomic Embed：能够复现的SOTA开源嵌入模型

摘要： Nomic-embed-text是2月份刚发布的，并且是一个完全开源的英文文本嵌入模型，上下文长度为8192。它在处理短文和长文本任务方面都超越了现有的模型，如OpenAI的Ada-002和text-embedding-3-small。该模型有137M个参数在现在可以算是非常小的模型了。模型、训练阅读全文

posted @ 2024-03-10 10:27 deephub 阅读(164) 评论(0) 推荐(0) 编辑

2024年3月9日

使用Tokeniser估算GPT和LLM服务的查询成本

摘要：将LLM集成到项目所花费的成本主要是我们通过API获取LLM返回结果的成本，而这些成本通常是根据处理的令牌数量计算的。我们如何预估我们的令牌数量呢？Tokeniser包可以有效地计算文本输入中的令牌来估算这些成本。本文将介绍如何使用Tokeniser有效地预测和管理费用。大语言模型（如GPT）中的阅读全文

posted @ 2024-03-09 09:45 deephub 阅读(11) 评论(0) 推荐(0) 编辑

2024年3月8日

StarCoder 2：GitHub Copilot本地开源LLM替代方案

摘要： GitHub CoPilot拥有超过130万付费用户，部署在5万多个组织中，是世界上部署最广泛的人工智能开发工具。使用LLM进行编程辅助工作不仅提高了生产力，而且正在永久性地改变数字原住民开发软件的方式，我也是它的付费用户之一。低代码/无代码平台将使应用程序创建、工作流自动化和数据分析更加广泛的应阅读全文

posted @ 2024-03-08 10:54 deephub 阅读(166) 评论(0) 推荐(0) 编辑

2024年3月7日

LLM 加速技巧：Muti Query Attention

摘要： MQA 是 19 年提出的一种新的 Attention 机制，其能够在保证模型效果的同时加快 decoder 生成 token 的速度。在大语言模型时代被广泛使用，很多LLM都采用了MQA，如Falcon、PaLM、StarCoder等。在介绍MQA 之前，我们先回顾一下传统的多头注意力 Mult 阅读全文

posted @ 2024-03-07 09:44 deephub 阅读(44) 评论(0) 推荐(0) 编辑

overfit深度学习

公告