2023年9月29日
摘要: 本文重点介绍了如何从零训练一个BERT模型的过程,包括整体上BERT模型架构、数据集如何做预处理、MASK替换策略、训练模型和保存、加载模型和测试等。 一.BERT架构 BERT设计初衷是作为一个通用的backbone,然后在下游接入各种任务,包括翻译任务、分类任务、回归任务等。BERT模型架构如下 阅读全文
posted @ 2023-09-29 23:23 扫地升 阅读(138) 评论(0) 推荐(0) 编辑
摘要: Transformer和BERT可谓是LLM的基础模型,彻底搞懂极其必要。Transformer最初设想是作为文本翻译模型使用的,而BERT模型构建使用了Transformer的部分组件,如果理解了Transformer,则能很轻松地理解BERT。 一.Transformer模型架构 1.编码器 ( 阅读全文
posted @ 2023-09-29 23:22 扫地升 阅读(844) 评论(0) 推荐(4) 编辑