2022年2月28日
摘要: Byte-Pair-Encoding是用于解决未登录词的一种方法。首先简单提一句什么是未登录词,未登录词可以理解为训练语料库中没有出现的,但是在测试语料库中出现的词。我们在处理NLP任务时,通常会根据语料生成一个词典,把语料中词频大于某个阈值的词放入词典中,而低于该阈值的词统统编码成"#UNK"。这 阅读全文
posted @ 2022-02-28 21:31 啥123 阅读(700) 评论(0) 推荐(0) 编辑