摘要: bert中n(seq_len)默认是512,通过padding,head_size = 64 hidden_size = 768 默认计算方式是hidden_size / heads(12) = 64,输入为seq_len(句子长度)*batch(句子个数)*embedingsize (44条消息) 阅读全文
posted @ 2023-05-08 15:29 15375357604 阅读(33) 评论(0) 推荐(0) 编辑