eaglet

本博专注于基于微软技术的搜索相关技术
  博客园  :: 首页  :: 新随笔  :: 联系 :: 订阅 订阅  :: 管理

随笔分类 -  盘古分词

摘要:V 2.3.3.0 版本改进了批量导入功能可以批量导入单词,词性和词频了。 阅读全文

posted @ 2011-06-30 19:28 eaglet 阅读(4732) 评论(30) 推荐(1) 编辑

摘要:在某些软件下载网站的全文搜索应用中往往需要根据部分或者全部的版本号来匹配查询。然而对于版本信息的提取,无论是采用增加单词还是其他什么办法都无法很好的实现。好在盘古分词提供了自定义规则的接口,我们可以通过实现自己的自定义规则来完成一些特殊信息的提取。这篇文章也作为盘古分词自定义规则使用的一个示例文章,希望大家看了这篇文章后可以举一反三,实现诸如IP地址提取,Email 提取,网址提取等等特殊提取功能的自定义规则。 阅读全文

posted @ 2010-08-20 14:48 eaglet 阅读(6817) 评论(25) 推荐(9) 编辑

摘要:盘古分词在 Lucene.net 2.9 版本下搜索没有结果这个问题已经被发现很长一段时间了,前阵子一直忙着搞HubbleDotNet,没顾上这个,最近打算对盘古分词进行升级,添加一些功能进去,顺便就去看看这个问题。 阅读全文

posted @ 2010-05-12 12:50 eaglet 阅读(7452) 评论(36) 推荐(4) 编辑

摘要:盘古分词 V1.2 版本发布 阅读全文

posted @ 2010-02-03 12:54 eaglet 阅读(2937) 评论(19) 推荐(1) 编辑

摘要:Hubble.net V0.7.2.0 版本发布 阅读全文

posted @ 2009-12-18 20:21 eaglet 阅读(2240) 评论(19) 推荐(0) 编辑

摘要:eaglet 曾经在KTDictSeg 中分别尝试使用规则和统计方式来识别中文(汉族)人名,但效果都不理想。在盘古分词中eaglet另辟它径,采用一种新的算法来识别中文人名,效果相比规则和统计方式要好很多。下面eaglet就来介绍这种中文人名的识别方法。 阅读全文

posted @ 2009-08-19 10:01 eaglet 阅读(17556) 评论(29) 推荐(10) 编辑

摘要:两年前我开发了一个KTDictSeg 中文分词组件,这个组件推出2年来受到很多朋友的喜爱。不过由于我当初开发KTDictSeg时比较仓促,底子没有打好,而且当时对分词的理解也比较肤浅,所以KTDictSeg组件存在很多问题,我一直想重新开放一个更好的开源分词组件,但一直没有抽出时间。上周我终于下定决心开始做这个事情,经过两周的开发(业余时间),今天终于完成了盘古分词的V1.0版本。盘古分词和KTDictSeg完全不同,几乎所有的算法我全部都推倒重写了,其分词速度大概比KTDictSeg快5倍左右(多线程下快10倍以上),内存占用只有KTDictSeg的一半,分词的准确度方面也比 KTDictSeg 有显著提高,功能也增加了很多。下面我就简单介绍一下盘古分词组件的基本功能,希望能对有这方面需求的朋友有所帮助。 阅读全文

posted @ 2009-08-13 16:50 eaglet 阅读(46403) 评论(126) 推荐(30) 编辑