eaglet

本博专注于基于微软技术的搜索相关技术
随笔 - 189, 文章 - 0, 评论 - 3725, 阅读 - 147万
  博客园  :: 首页  :: 新随笔  :: 联系 :: 订阅 订阅  :: 管理
< 2025年3月 >
23 24 25 26 27 28 1
2 3 4 5 6 7 8
9 10 11 12 13 14 15
16 17 18 19 20 21 22
23 24 25 26 27 28 29
30 31 1 2 3 4 5

随笔分类 -  Lucene

摘要:HighLight.net 是Lucene.net 带的一个开源高亮显示的组件,这个组件 2.0 版本以上的源码在网上很难找到,而这个组件 感觉又存在一些bug,遇到问题想调试一下,又没有源码,实在让人抓狂。 今天用最土的方法,一个一个文件下载,总是把这个版本的源码给凑齐了,编译了一下,没有问题,发上来,方便大家调试, 大家如果发现这里面有什么bug,还望多多分享。 阅读全文

posted @ 2008-07-07 11:10 eaglet 阅读(2931) 评论(19) 推荐(0) 编辑

摘要:目前互联网上关于Lucene 及 Lucene.net 的文章很多,看了一些,感觉绝大部分还是偏向于应用,真正深入探讨其核心算法的文章不是太多,最近打算深入研究一下Lucene.net,把一些关键技术点的核心算法搞清楚。在开始做这个工作之前,先对目前互联网上可以利用的资源做个汇总,算是抛砖引玉吧,还望网友们多来补充,大家共同学习! 阅读全文

posted @ 2008-07-03 21:29 eaglet 阅读(4556) 评论(14) 推荐(0) 编辑

摘要:公布1.3版本的所有改动和下载位置 阅读全文

posted @ 2008-05-29 08:27 eaglet 阅读(12706) 评论(130) 推荐(1) 编辑

摘要:中文姓名识别和未登录词识别是中文分词中的难点,具体为什么是难点,很多文章都有叙述,这里不再多讲。主要介绍一下 1.3版本是如何对中文姓名和未登录词进行识别的。 阅读全文

posted @ 2008-05-28 15:18 eaglet 阅读(3369) 评论(12) 推荐(0) 编辑

摘要:KTDictSeg 分词组件1.3版本已经接近完成,只剩下最后的一点功能。在KTDictSeg 分词组件1.3版本的开发过程中,得到了很多朋友的关注和支持,特别是一些分词方面的专家提出了很多很好的意见,也对我的分词算法给出了很多中肯的建议,在此向他们表示由衷的感谢。1.3版本的预分词算法还是沿用了之前版本的变相的最大匹配算法,这个算法有着本质的缺陷,未来的2.0版本可能会使用目前比较先进的算法替代这个过时的算法。 1.3版本在预分词中增加了对英文专业词汇的支持,比如C++,C#原来无法被分出来,现在只要在词库中有就可以分出来。在预分词中1.3版本还增加了对词频的判断。在预分词后,1.3版本对中文姓名匹配,未登录词识别等进行了一些改进。另外1.3版本还增加了对lucene.net的支持以及字典管理功能。之前很多朋友建议将ArrayList全部改成了List,非常好的建议,1.3版本将原来代码中所有的ArrayList全部改成了List. 从今天开始,我打算逐步公布新版本中的一些主要算法,供朋友们参考,由于我水平有限,很多算法难尽如人意,有不对的地方还望指正。 b 阅读全文

posted @ 2008-05-27 15:07 eaglet 阅读(3924) 评论(32) 推荐(0) 编辑

摘要:在数据挖掘的研究中,我们往往需要判断文章是否雷同,对类似文章或短句进行归类处理等,这其中就会遇到这样的问题:如何确定两个字符串之间的相似程度。 本文综合作者的实际工作经验和数据挖掘理论,结合中文字符串特性介绍一套相对完整的方法,以解决上述问题.。 阅读全文

posted @ 2007-08-14 09:59 eaglet 阅读(6246) 评论(4) 推荐(0) 编辑

摘要:经过一周的工作,完成了KTDictSeg 1.2 版本的开发,该版本多词库进行的初步整理,并增加了如下功能 1、 增加中文人名判断 2、 增加了正向匹配分词和反向匹配分词的选项 3、 增加了停用词过滤 4、 增加了词性标注 阅读全文

posted @ 2007-06-02 17:54 eaglet 阅读(8407) 评论(60) 推荐(0) 编辑

摘要:这段时间通过研究目前在互联网上可以搜索到的中文分词算法,感觉很难找到既快又准的分词方法,通过几天时间的研究,我终于找到了一种快速且较准确的中文分词方法。现在回过头来想想,觉得其实问题并不很复杂,对于一般应用,我觉得这个算法应该基本够用了,当然目前没有一种方法可以达到100%的分词准确度,这个算法也是一样。对于实际应用往往需要在效率和准确度上做个折中,当然对技术的追求是无止境的,我也将继续努力,争取在后续版本中进一步提高准确度,并维持现有效率。 阅读全文

posted @ 2007-05-24 18:14 eaglet 阅读(33192) 评论(86) 推荐(3) 编辑

点击右上角即可分享
微信分享提示