摘要: BERT的全称是Bidirectional Encoder Representation from Transformers,是Google2018年提出的预训练模型,即双向Transformer的Encoder,因为decoder是不能获要预测的信息的。模型的主要创新点都在pre-train方法上 阅读全文
posted @ 2023-08-23 16:56 wangssd 阅读(104) 评论(0) 推荐(0) 编辑
摘要: masked mutil-head attetion mask 表示掩码,它对某些值进行掩盖,使其在参数更新时不产生效果。Transformer 模型里面涉及两种 mask,分别是 padding mask 和 sequence mask。其中,padding mask 在所有的 scaled do 阅读全文
posted @ 2023-08-23 15:47 wangssd 阅读(40) 评论(0) 推荐(0) 编辑
摘要: Bag-of-words模型,BOW模型(词袋模型)假定对于一个文档,忽略它的单词顺序和语法、句法等要素,将其仅仅看作是若干个词汇的集合,文档中每个词汇的出现都是独立的,不依赖于其它词汇是否出现。也就是说,文档中任意一个位置出现的任何单词,都不受该文档语意影响而独立选择的。 基于词袋模型的文本离散化 阅读全文
posted @ 2023-08-23 11:20 wangssd 阅读(110) 评论(0) 推荐(0) 编辑