会员
周边
众包
新闻
博问
闪存
所有博客
当前博客
我的博客
我的园子
账号设置
简洁模式
...
退出登录
注册
登录
不要忘记我
博客园
首页
新随笔
联系
订阅
管理
2022年2月28日
BEP概述
摘要: Byte-Pair-Encoding是用于解决未登录词的一种方法。首先简单提一句什么是未登录词,未登录词可以理解为训练语料库中没有出现的,但是在测试语料库中出现的词。我们在处理NLP任务时,通常会根据语料生成一个词典,把语料中词频大于某个阈值的词放入词典中,而低于该阈值的词统统编码成"#UNK"。这
阅读全文
posted @ 2022-02-28 21:31 啥123
阅读(700)
评论(0)
推荐(0)
编辑