eaglet

本博专注于基于微软技术的搜索相关技术
  博客园  :: 首页  :: 新随笔  :: 联系 :: 订阅 订阅  :: 管理

随笔分类 -  搜索引擎

摘要:PFR人民日报标注语料库(版本1.0,下面简称PFR语料库)是在得到人民日报社新闻信息中心许可的条件下,以1998年人民日报语料为对象,由北京大学计算语言学研究所和富士通研究开发中心有限公司共同制作的标注语料库。该语料库对600多万字节的中文文章进行了分词及词性标注,其被作为原始数据应用于大量的研究和论文中。由于该语料库是以文本形式提供的,本文给出了读取该语料库的C#代码,供网友参考。 阅读全文

posted @ 2007-09-10 13:20 eaglet 阅读(19376) 评论(12) 推荐(1) 编辑

摘要:在数据挖掘的研究中,我们往往需要判断文章是否雷同,对类似文章或短句进行归类处理等,这其中就会遇到这样的问题:如何确定两个字符串之间的相似程度。 本文综合作者的实际工作经验和数据挖掘理论,结合中文字符串特性介绍一套相对完整的方法,以解决上述问题.。 阅读全文

posted @ 2007-08-14 09:59 eaglet 阅读(6241) 评论(4) 推荐(0) 编辑

摘要:经过一周的工作,完成了KTDictSeg 1.2 版本的开发,该版本多词库进行的初步整理,并增加了如下功能 1、 增加中文人名判断 2、 增加了正向匹配分词和反向匹配分词的选项 3、 增加了停用词过滤 4、 增加了词性标注 阅读全文

posted @ 2007-06-02 17:54 eaglet 阅读(8405) 评论(60) 推荐(0) 编辑

摘要:这段时间通过研究目前在互联网上可以搜索到的中文分词算法,感觉很难找到既快又准的分词方法,通过几天时间的研究,我终于找到了一种快速且较准确的中文分词方法。现在回过头来想想,觉得其实问题并不很复杂,对于一般应用,我觉得这个算法应该基本够用了,当然目前没有一种方法可以达到100%的分词准确度,这个算法也是一样。对于实际应用往往需要在效率和准确度上做个折中,当然对技术的追求是无止境的,我也将继续努力,争取在后续版本中进一步提高准确度,并维持现有效率。 阅读全文

posted @ 2007-05-24 18:14 eaglet 阅读(33167) 评论(86) 推荐(3) 编辑