游荡的灵魂
无根的灵魂,除了游荡,还能去那里?
摘要: 分词模块中主要是2大部分,首先是分词算法部分,然后就是词库部分。分词算法我们使用的是逆向最大匹配算法、语法效验、生词识别(基于上下文统计和语法效验)。这篇随笔主要说一下词库部分。 分词效率很大程度取决词库的设计,词库设计必须实现最大限度的查找匹配词。词库设计主要是2大部分,词数据部分和索引部分。 阅读全文
posted @ 2006-12-30 17:23 游荡的灵魂 阅读(3827) 评论(8) 推荐(0) 编辑