我要去桂林---田春峰的网志

我要去桂林

导航

2005年3月10日 #

中文分词和二元分词综合对比

摘要: 中文分词和二元分词综合对比 为了测试中文分词和二元分词的差异,现将初步的测试数据做了对比。 采用中文分词每1M产生1.55M的索引文件,膨胀率1.55;每1M用时大约10秒;采用二元分词每1M产生2.21M的索引文件,膨胀率2.21;每1M用时大约7秒; 从搜索结果来看,两者可以大致相同数量的搜索结果(显示结... 阅读全文

posted @ 2005-03-10 15:05 我要去桂林 阅读(3593) 评论(1) 推荐(0) 编辑

2005年2月26日 #

发布 .Net 版本的小叮咚中文分词Web Service

摘要: 发布 .Net 版本的小叮咚分词Web Service 应很多朋友的要求,现在提供分词的Web Service 服务 Web服务地址: http://www.domolo.com/chinesesegment/sentencesegment.asmx 大家可以到:小叮咚分词论坛 http://www.domolo.com/bbs/list.asp?boardid=13 提出自己的... 阅读全文

posted @ 2005-02-26 18:11 我要去桂林 阅读(2035) 评论(0) 推荐(0) 编辑

2005年1月19日 #

建立了一个lucene全文索引论坛

摘要: 网上关于lucene 的文章也逐渐多了起来,现在国内还没有专门的论坛来讨论lucene的使用,所以我准备设立一个lucene讨论区。 在这里可以讨论一切关于lucene全文索引相关东西,包括: CLucene - Lucene implementation in C++ Lucene Lupy - Lucene implementation in... 阅读全文

posted @ 2005-01-19 17:56 我要去桂林 阅读(679) 评论(0) 推荐(0) 编辑

2005年1月18日 #

小叮咚切分词方法加入sourceforge.net中WebLucene分词模块

摘要: 小叮咚采用的是逆向最大匹配分词法,算法简单,可以满足大部分的分词应用。现在已经集成到WebLucene项目中,开放源代码。有需要的朋友可以下载代码使用。 这个版本还没有实现我在一种面向搜索引擎的中文切分词方法 一文中提到的分词思路。比如: 汉字的StopWords,对标点符号的处理等等。 也希望对分词感兴趣的朋友一起讨论实现改进实现小叮咚分词的切分效果。 ... 阅读全文

posted @ 2005-01-18 21:12 我要去桂林 阅读(568) 评论(0) 推荐(0) 编辑

2005年1月8日 #

一种面向搜索引擎的中文切分词方法

摘要: 一种面向搜索引擎的中文切分词方法 首先说一下搜索引擎切分词的产生的原因。 在进行全文检索时,首先将要检索的内容分割成较短的文字序列。然后生成在每个文字序列中所包含字符串的对应表(索引)。当输入检索语句后,也同样进行分割,与索引进行比较。也就是说,两者即使包含有同样的文字排列,但分割方法不同的话也不能正确检索。 文字的分割方法主要有两种,分别是 词语解析索引 和 文字索... 阅读全文

posted @ 2005-01-08 11:53 我要去桂林 阅读(1160) 评论(2) 推荐(0) 编辑

2004年12月28日 #

不同规则的中文分词对Lucene索引的影响

摘要: 不同规则的中文分词对Lucene索引的影响 田春峰 在中文全文索引中为了建立反向索引需要对文档中的句子进行切分,相关理论请参见车东的介绍。 ... 阅读全文

posted @ 2004-12-28 13:58 我要去桂林 阅读(1734) 评论(4) 推荐(0) 编辑