摘要:
# 前言 ## 为什么用Decoder only LLM之所以主要都用Decoder-only架构,除了训练效率和工程实现上的优势外,在理论上是因为Encoder的双向注意力会存在低秩问题,这可能会削弱模型表达能力,就生成任务而言,引入双向注意力并无实质好处。而Encoder-Decoder架构之所 阅读全文
摘要:
| 模型 | 训练数据 | 训练数据量 | 模型参数量 | 词表大小 | | | | | | | | LLaMA | 以英语为主的拉丁语系,不包含中日韩文 | 1T/1.4T tokens | 7B、13B、33B、65B | 32000 | | ChatGLM-6B | 中英双语,中英文比例为1: 阅读全文
摘要:
# # T5 采用Encoder Decoder架构 T5将每个文本处理问题都看做 Text2Text问题 通过这种方式将不同的NLP任务统一在一个模型框架之下,充分进行迁移学习 为了让模型知道需要执行的任务类型,需要在输入文本前添加特定的文本前缀进行提示,也是最早的Prompt 用同样的模型,同样 阅读全文