摘要: 构建词表是NLP任务中的一个基本要求,传统的方法是对各个句子进行分词,然后选取频率最高的N个词组成词表。但是这样的做法不可避免的会带来一些问题,如OOV问题,低频次/稀疏词的语义很难获取(因为没有训练)等。 为解决上述问题,提出了subword模型。该模型的划分粒度介于词与字符之间,如将"looki 阅读全文
posted @ 2020-09-17 20:02 justDoIT& 阅读(2080) 评论(0) 推荐(2) 编辑