摘要: BERT 实际上是一个 tranformer encoder,输入一串向量输出相同个数的向量。 以下以句子为例,句子可以认为是一串向量。 pre-train 如何训练 BERT 呢(事实上应该是预训练,pre-train)?一个常用的方法是做填空题。即,随机挖去一些字,让模型学习如何去填空。其中这个 阅读全文
posted @ 2024-02-16 14:30 SkyRainWind 阅读(16) 评论(0) 推荐(0) 编辑