会员
周边
众包
新闻
博问
闪存
赞助商
所有博客
当前博客
我的博客
我的园子
账号设置
简洁模式
...
退出登录
注册
登录
format Blog
给我个权限,我format你的硬盘.
博客园
::
首页
::
博问
::
闪存
::
新随笔
::
联系
::
订阅
::
管理
::
公告
2008年5月8日
【笔记】提高中文分词准确性和效率的方法
摘要: 最近在学习中文分词方面的技术。读到KTDictSeg 1.2组件的代码深受启发,作此笔记。 在一切开始之前我们可以用正则表达式把文本中的一些特殊部分过滤出来,比如英文单词,一串数字,日期,Email,电话,邮编,尽可能的过滤,这样减少了实际进行分词的字符,而且准确性更高。 个人想法:可以把所有拼音组合整理出来,用拼音来记录中文词语的组合,存到字典里,这样字典的尺寸就可以大幅减低。匹配时候把汉字转换...
阅读全文
posted @ 2008-05-08 19:32 format
阅读(962)
评论(0)
推荐(0)
编辑