会员
周边
众包
新闻
博问
闪存
赞助商
所有博客
当前博客
我的博客
我的园子
账号设置
简洁模式
...
退出登录
注册
登录
大数据算法工程师的自耕地
无他,但手熟尔
博客园
首页
新随笔
联系
订阅
管理
2017年4月12日
新词发现(一):基于统计
摘要: 1. 什么是新词 现在大部分的分词工具已经做到了准确率高、粒度细,但是对于一些新词(new word)却不能做到很好地识别,比如: 快的打车优惠券 英雄联盟怎么不可以打排位 “快的”、“英雄联盟”应该被作为一个词,却被切成了两个词,失去了原有的语义。未登录词(out of vocabulary, O
阅读全文
posted @ 2017-04-12 15:43 Treant
阅读(8463)
评论(4)
推荐(2)
编辑
公告