摘要: 开源:云寻觅中文分词 (Yunxunmi Chinese Word Segmentation) ,词汇440万,10万字文章分词并计算频率不超过1秒 云寻觅中文分词 (Yunxunmi Chinese Word Segmentation) 指的是将一个汉字序列切成一个一个单独的词。云寻觅中文分词就是将连续的字序列按照一定的规范重新组合成词序列的 过程。中文分词也是搜索引擎最核心的技术包括(全文索引,检索,排序权重计算,文本分类,聚类),因此,中文分词的准确性和高效性将直接决定一个搜索引擎的好坏,目前很多搜索引擎包括谷歌对中国各地的方言几乎无法识别,直接导致搜索结果漏洞百出,正是基于上述原因,本人不辞辛苦开发出云寻觅中文分词并开源,希望更多的有识之士从中受益。 阅读全文
posted @ 2013-04-22 20:53 chinacloudy 阅读(4323) 评论(28) 推荐(42) 编辑
点击右上角即可分享
微信分享提示