摘要: 在NLP任务中,输入的大多是一个句子,多个句子组成一个batch。模型本身不能直接处理文本,所以需要先把文本转化成数字。流程大多数是: 分词->构建词表->词嵌入 分词 分词是将一个句子拆分成一个个单词/短语,这些单词/短语称为token,分词被叫做tokenize。 tokenize的粒度有wor 阅读全文
posted @ 2022-07-29 18:09 王冰冰 阅读(373) 评论(0) 推荐(0) 编辑