摘要: 之前我写过一篇文章,利用bert来生成token级向量(对于中文语料来说就是字级别向量),参考我的文章:《使用BERT模型生成token级向量》。但是这样做有一个致命的缺点就是字符序列长度最长为512(包含[cls]和[sep])。其实对于大多数语料来说已经够了,但是对于有些语料库中样本的字符序列长 阅读全文
posted @ 2019-08-28 12:22 不著人间风雨门 阅读(12197) 评论(4) 推荐(1) 编辑