2018年7月22日
摘要: 说明 中文分词是很多文本分析的基础。最近一个项目,输入一个地址,需要识别出地址中包含的省市区街道等单词。与以往的分词技术不同。jieba/hanlp等常用的分词技术,除了基于词典,还有基于隐马尔科夫/条件随机场等机器学习技术对未登录词的分词,有一定的概率性。而我们所使用的地址识别,要求必须基于词库进 阅读全文
posted @ 2018-07-22 17:01 谷堆曲线 阅读(1658) 评论(0) 推荐(0) 编辑