会员
周边
众包
新闻
博问
闪存
赞助商
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
简洁模式
...
退出登录
注册
登录
谷堆曲线
博客园
首页
新随笔
新文章
联系
管理
订阅
2018年7月22日
基于词典的前缀扫描中文分词
摘要: 说明 中文分词是很多文本分析的基础。最近一个项目,输入一个地址,需要识别出地址中包含的省市区街道等单词。与以往的分词技术不同。jieba/hanlp等常用的分词技术,除了基于词典,还有基于隐马尔科夫/条件随机场等机器学习技术对未登录词的分词,有一定的概率性。而我们所使用的地址识别,要求必须基于词库进
阅读全文
posted @ 2018-07-22 17:01 谷堆曲线
阅读(1669)
评论(0)
推荐(0)
编辑
公告