搜索引擎 - 随笔分类(第3页) - eaglet

Lucene 源代码剖析-3 索引文件概述

摘要：为了使用Lucene来索引数据，首先你得把它转换成一个纯文本（plain-text）tokens的数据流（stream），并通过它创建出Document对象，其包含的Fields成员容纳这些文本数据。一旦你准备好些Document对象，你就可以调用IndexWriter类的addDocument(Document)方法来传递这些对象到Lucene并写入索引中。当你做这些的时候，Lucene首先分析（analyzer）这些数据来使得它们更适合索引。详见《Lucene In Action》阅读全文

posted @ 2009-02-13 14:28 eaglet 阅读(3416) 评论(2) 推荐(0) 编辑

Lucene 源代码剖析-2 Lucene是什么

摘要：Apache Lucene是一个高性能（high-performance）的全能的全文检索（full-featured text search engine）的搜索引擎框架库，完全（entirely）使用Java开发。它是一种技术（technology），适合于（suitable for）几乎（nearly）任何一种需要全文检索（full-text search）的应用，特别是跨平台（cross-platform）的应用。阅读全文

posted @ 2009-02-13 14:05 eaglet 阅读(5481) 评论(0) 推荐(1) 编辑

大规模超文本web搜索引擎剖析-转载

摘要：这是google 的两位创始人2000年左右在斯坦福大学发表的论文，文章讲述了google最初的设计目标和系统特性。转眼这么多年过去了，google 已经从一个很小的初创公司成长为世界上最大的互联网公司。今天偶然从互联网上搜到这篇文章，感慨良多，让我们一起来回顾这个互联网巨头的青涩时代吧。转载了文章的原文阅读全文

posted @ 2009-02-13 09:19 eaglet 阅读(2337) 评论(2) 推荐(1) 编辑

自然语言分析、文本分析、全文索引，搜索引擎相关资源汇总

摘要：日常工作中经常要查找这方面的相关文章，做个索引，并不断更新，以便日后查找。阅读全文

posted @ 2009-01-07 08:50 eaglet 阅读(5786) 评论(9) 推荐(1) 编辑

HubbleDotNet 近期版本规划

摘要：HubbleDotNet 近期版本规划阅读全文

posted @ 2008-12-04 12:29 eaglet 阅读(3145) 评论(18) 推荐(0) 编辑

Hubble.Net 0.1 版本算法简介

摘要：经过3周的开发，Hubble.Net 0.1 版本已经完成。这个版本不是一个可以商业应用的版本，准确的说其只完成了一些最核心的算法。发布这个版本的目的是为那些对搜索算法感兴趣的朋友们提供一个最单纯的版本，方便这些朋友们进行研究和测试。目前这个版本的运行效率和准确度已经比较高，不过我还是希望高手们能够提出更好的算法改进，以提高性能或准确度。阅读全文

posted @ 2008-12-02 14:38 eaglet 阅读(4536) 评论(28) 推荐(0) 编辑

不选择使用Lucene的6大原因(转载) - Hubble.net 将尽可能解决这些问题

摘要：今天在阅读LingWay （一个做垂直的语义搜索引擎）的CTO Cedric Champeau 先生的博客是发现有一篇题为：Why lucene isn't that good 为什么Lucene并不是想象的那么棒的文章：Champeau 开门见山指出了Lucene的6大不足之处，鉴于 Lingway 公司使用Lucene已有好几年的历史，我相信Cedric Champeau的对Lucene的评论还是值得一读。阅读全文

posted @ 2008-11-24 07:35 eaglet 阅读(3976) 评论(8) 推荐(0) 编辑

KTDictSeg 1.4正式版(1.4.2 版本)发布

摘要：1.4.2 版本是 1.4 正式版，该版本修改了 1.4.1 版本的一下错误。阅读全文

posted @ 2008-11-17 13:54 eaglet 阅读(3731) 评论(55) 推荐(0) 编辑

让.Net 应用程序突破2G的内存访问限制

摘要：32位Windows操作系统下单个进程的用户模式内存访问的限制是2G，如果在boot.ini中设置了/3G开关，则最大为3G，超过3G将无法访问。由于Hubble.net 项目是一个数据库系统，必须要考虑使用大内存缓存数据的问题，于是最近对这个问题进行了一些研究。其实这块的技术是现成的，32位操作系统下只有通过 AWE的方式来扩展内存。这块的文章也很多，但很少有.net 下如何使用的实例，我做了一个类似MemoryStream的封装，可以让.Net程序员轻松操作AWE内存，从而使其程序轻松突破2G内存的限制。阅读全文

posted @ 2008-11-06 14:00 eaglet 阅读(10321) 评论(17) 推荐(2) 编辑

Lucene.Net RangeQuery 效率确实低下

摘要：很多文章提到 Lucene.Net RangeQuery 的查询效率非常低下，我今天测试了一下，果然非常低下，而且结果也不正确。阅读全文

posted @ 2008-11-03 12:07 eaglet 阅读(2549) 评论(11) 推荐(0) 编辑

Hubble.Net 全文数据库开源项目(2008年11月8日更新修改软件架构)

摘要：Hubble.Net 全文数据库开源项目是一个建立在 .net 框架基础上的由中国程序员主导的全文数据检索开源项目。项目旨在为全文检索开发者或用户提供一个简单易用、高性能、高可用性的全文数据库中间件。Hubble.Net的骨干版本提供最基本的全文检索接口和界面，并被设计为高度可扩展的系统架构，以吸引众多的开发者参与进系统扩展功能的研发和推广，最终形成一套较为完整的全文检索解决方案。阅读全文

posted @ 2008-10-28 09:09 eaglet 阅读(5450) 评论(38) 推荐(2) 编辑

KTDictSeg V1.4.01 新增功能说明及下载地址

摘要：KTDictSeg 1.4.01 版本经过一段时间的紧张开发，今天正式发布。感谢这段时间一直关心这个项目的朋友们。希望我的工作能给大家带来快乐。阅读全文

posted @ 2008-10-10 07:56 eaglet 阅读(6152) 评论(66) 推荐(1) 编辑

盘古分词 - 多元分词

摘要：盘古分词开发了多元分词算法，其与lucene.net 配合构建全文搜索，经测试准确度接近google和baidu的水平。现将一些实现方法和测试结果公布出来，供关心分词和搜索技术的朋友们参考。阅读全文

posted @ 2008-10-02 16:34 eaglet 阅读(25144) 评论(35) 推荐(5) 编辑

修改 HighLight.net 2.0 版本一处Bug

摘要：最近我的博客中有两位网友在使用 KTDictSeg 1.3 + lucene.net 2.0 + HighLight.net 2.0 是出现问题，高度怀疑是HighLight.net 2.0 版本的Bug，今天腾出时间把几个组件的源码全部下下来，调试了一把，终于找到了这个Bug，下面把Bug的具体原因和修改后的源码发上来，供大家参考。另外哪位网友知道如何向 lucene apache 组织申报Bug，麻烦告知一声，以便我将这个Bug提交给该组织，让它的后续版本可以改进这个错误。阅读全文

posted @ 2008-07-09 09:22 eaglet 阅读(2530) 评论(11) 推荐(0) 编辑

HighLight.net 2.0 版本源码

摘要：HighLight.net 是Lucene.net 带的一个开源高亮显示的组件，这个组件 2.0 版本以上的源码在网上很难找到，而这个组件感觉又存在一些bug，遇到问题想调试一下，又没有源码，实在让人抓狂。今天用最土的方法，一个一个文件下载，总是把这个版本的源码给凑齐了，编译了一下，没有问题，发上来，方便大家调试，大家如果发现这里面有什么bug，还望多多分享。阅读全文

posted @ 2008-07-07 11:10 eaglet 阅读(2931) 评论(19) 推荐(0) 编辑

Lucene 及 Lucene.net 国内外的一些学习资源汇总

摘要：目前互联网上关于Lucene 及 Lucene.net 的文章很多，看了一些，感觉绝大部分还是偏向于应用，真正深入探讨其核心算法的文章不是太多，最近打算深入研究一下Lucene.net，把一些关键技术点的核心算法搞清楚。在开始做这个工作之前，先对目前互联网上可以利用的资源做个汇总，算是抛砖引玉吧，还望网友们多来补充，大家共同学习！阅读全文

posted @ 2008-07-03 21:29 eaglet 阅读(4556) 评论(14) 推荐(0) 编辑

KTDictSeg 分词组件1.3版本新增功能列表及下载位置

摘要：公布1.3版本的所有改动和下载位置阅读全文

posted @ 2008-05-29 08:27 eaglet 阅读(12706) 评论(130) 推荐(1) 编辑

KTDictSeg 分词组件1.3版本部分算法讨论 -- 中文姓名识别和未登录词识别

摘要：中文姓名识别和未登录词识别是中文分词中的难点，具体为什么是难点，很多文章都有叙述，这里不再多讲。主要介绍一下 1.3版本是如何对中文姓名和未登录词进行识别的。阅读全文

posted @ 2008-05-28 15:18 eaglet 阅读(3369) 评论(12) 推荐(0) 编辑

KTDictSeg 分词组件1.3版本部分算法讨论 -- 分词粒度

摘要：KTDictSeg 分词组件1.3版本已经接近完成，只剩下最后的一点功能。在KTDictSeg 分词组件1.3版本的开发过程中，得到了很多朋友的关注和支持，特别是一些分词方面的专家提出了很多很好的意见，也对我的分词算法给出了很多中肯的建议，在此向他们表示由衷的感谢。1.3版本的预分词算法还是沿用了之前版本的变相的最大匹配算法，这个算法有着本质的缺陷，未来的2.0版本可能会使用目前比较先进的算法替代这个过时的算法。 1.3版本在预分词中增加了对英文专业词汇的支持，比如C++,C#原来无法被分出来，现在只要在词库中有就可以分出来。在预分词中1.3版本还增加了对词频的判断。在预分词后，1.3版本对中文姓名匹配，未登录词识别等进行了一些改进。另外1.3版本还增加了对lucene.net的支持以及字典管理功能。之前很多朋友建议将ArrayList全部改成了List,非常好的建议，1.3版本将原来代码中所有的ArrayList全部改成了List. 从今天开始，我打算逐步公布新版本中的一些主要算法，供朋友们参考，由于我水平有限，很多算法难尽如人意，有不对的地方还望指正。 b 阅读全文

posted @ 2008-05-27 15:07 eaglet 阅读(3924) 评论(32) 推荐(0) 编辑

修改 highlighter.net-1.4.0 一处Bug

摘要：最近在做KTDictSeg 的 1.3 版本，在这个版本中做了一个用Lucene.net 搜索新闻的例子，其中生成关键词摘要用了 highlighter.net-1.4.0版本，发现中文关键词摘要生成结果总是不对，但英文的结果是对的。没办法，只得把highlighter.net 的源码拿出来调了一遍，最终发现问题在TokenGroup类的IsDistinct函数上。阅读全文

posted @ 2008-05-06 19:07 eaglet 阅读(2104) 评论(4) 推荐(0) 编辑

eaglet

公告

订阅

搜索

常用链接

我的标签

积分与排名

随笔分类 (282)

随笔档案 (189)

友情链接

阅读排行榜

评论排行榜

推荐排行榜

最新评论

随笔分类 - 搜索引擎