随笔分类 -  中文分词

中文分词
摘要:汉语转拼音-----带音调和多音字识别1、 背景几年前就在网上看到过汉字转拼音的程序,大都就是按汉字的编码转换,单字对应的算法实现的。在网上搜索“汉字转拼音”的文章可以搜索到很多,基本都是同一个算法,各种语言的移植版本都有,但是都有一个共同的缺点,不能支持多音字。比如“重庆”,“重量”这样的词语就不能正确的识别,这在很多应用中会是一个非常大的缺陷,更不用说支持音调。(来自http://sunli.... 阅读全文
posted @ 2007-11-21 15:31 草屋主人 阅读(25074) 评论(42) 推荐(1) 编辑
摘要:CLucene - a C++ search engine  http://sourceforge.net/projects/clucene/    传统的全文检索都是基于数据库的,Sql Server  Oracle mysql 都提供全文检索,但这些比较大,不适合单机或小应用程序(Mysql4.0以上可以作为整合开发),Mysql也不支持中文。    后来得知Apache有一个开源的全文检索引... 阅读全文
posted @ 2006-03-26 10:14 草屋主人 阅读(1612) 评论(4) 推荐(0) 编辑
摘要:以前做知识管理系统的时候,由于需要建立全文检索和统计词频,需要对中文文本进行分词。对于中文分词, 国内做到好的应该是中科院自然研究所,但是相对比较复杂,我看了几次没有看明白. :) ,由于平常我们的知识系统对分词的要求没有这么高,所以 就选择了最大化的词表分词法. 词表选择的是人民日报97版的词表.实际效果可以达到90%以上,基本可以满足需要。支持 Lucene.net分词,词表是启动时一次性... 阅读全文
posted @ 2006-03-26 10:11 草屋主人 阅读(1155) 评论(2) 推荐(0) 编辑

点击右上角即可分享
微信分享提示