会员
周边
众包
新闻
博问
闪存
赞助商
所有博客
当前博客
我的博客
我的园子
账号设置
简洁模式
...
退出登录
注册
登录
游荡的灵魂
无根的灵魂,除了游荡,还能去那里?
博客园
首页
博问
闪存
新随笔
订阅
管理
2006年12月30日
分词词库文件数据格式设计
摘要: 分词模块中主要是2大部分,首先是分词算法部分,然后就是词库部分。分词算法我们使用的是逆向最大匹配算法、语法效验、生词识别(基于上下文统计和语法效验)。这篇随笔主要说一下词库部分。 分词效率很大程度取决词库的设计,词库设计必须实现最大限度的查找匹配词。词库设计主要是2大部分,词数据部分和索引部分。
阅读全文
posted @ 2006-12-30 17:23 游荡的灵魂
阅读(3827)
评论(8)
推荐(0)
编辑