摘要: bert结构:BERT-Base, Uncased: 12-layer, 768-hidden, 12-heads, 110M parameters,词典大小:30522 embeding层: token embeding:30522*768,获取每个token的初始编码 position embe 阅读全文
posted @ 2023-08-23 14:53 15375357604 阅读(23) 评论(0) 推荐(0) 编辑