摘要: 1. 索引类 WEBUS中用于索引的类(接口)主要有以下几个: IIndexable(接口) IQueriable(接口) IndexManager(实现IIndexWriter接口和IIndexReader接口)... 阅读全文
posted @ 2008-03-06 13:08 Ivan Zou 阅读(1582) 评论(1) 推荐(0) 编辑
摘要: 通过前一篇文章,我们知道了WEBUS的索引数据都在一个虚拟的目录(IDirectory)中得以保存。本篇将继续前文,详细解析索引中的数据类型。 为了同时实现关键词搜索和范围搜索,WEBUS的索引采取了“主索引(Master Index)+序列(Sequence)”的方式进行组织... 阅读全文
posted @ 2008-01-21 16:56 Ivan Zou 阅读(1835) 评论(3) 推荐(0) 编辑
摘要: WEBUS的索引数据全部保存在一种抽象的目录结构中,它既支持实际物理目录,也支持以流(System.IO.Stream)作为数据载体的逻辑目录...物理目录, 逻辑目录, 逻辑流... 阅读全文
posted @ 2008-01-15 15:06 Ivan Zou 阅读(1772) 评论(1) 推荐(0) 编辑
摘要: 当索引建好之后,要利用WEBUS2.0实现基本搜索功能,至少需要用到如下几个类和接口: Webus.Index.IQueriable (接口) Webus.Index.IndexManager (类,实现IQueriable)... 阅读全文
posted @ 2008-01-05 10:35 Ivan Zou 阅读(2793) 评论(9) 推荐(0) 编辑
摘要: WEBUS2.0只能够将一种Document数据类型(Webus.Index.Document类)添加到索引中,所有其他类型的数据(如txt、html、word、pdf等等)都需要预先转换成Document才能够对其编制索引... 阅读全文
posted @ 2008-01-03 10:47 Ivan Zou 阅读(2117) 评论(1) 推荐(0) 编辑
摘要: Lucene In Action, 一本极好的搜索引擎开发指南(当然是基于Lucene的开发,如今WEBUS也基本适用)。全书两大部分,Part 1阐述Lucene的结构和应用方法,也涉及到一些原理的介绍;Part 2阐述Lucene的应用、扩展和相关信息。如果对搜索引擎和相关应用技术感兴趣,强烈建议研读一下这本书,一定会有收获的!英文版:下载地址中文版:电子工业出版社,¥49 阅读全文
posted @ 2008-01-02 17:27 Ivan Zou 阅读(608) 评论(0) 推荐(0) 编辑
摘要: 作为程序员,真的很快乐。不用太多happy活动,闲下来写一些自己感兴趣的代码,就足以自娱自乐了。WEBUS就是这样的代码,自从两年前开始研究搜索引擎技术,它就开始伴我度过无数个闲暇时光,而今已经开发到2.0版本了。最近闲逛到好友zhuweisky的博客,看到他早期的一篇文章,说到每个优秀的程序员应该积累一套自己的类库,使我颇受鼓舞。回想我们共事时的点点滴滴已经感慨万千,没有想到现在他的文字依旧能够给我如此触动,让我决定继续我的代码,分享我的快乐。WEBUS2.0 Search Engine SDK 简介用.Net开发搜索引擎系统,我们可以选择Lucene.Net,不过我不习惯里面的Coding 阅读全文
posted @ 2008-01-02 16:51 Ivan Zou 阅读(2885) 评论(5) 推荐(1) 编辑
摘要: 那天中午和同事讨论起c#中的try..catch..finally. 据说有人分析IL发现这块的运行逻辑和原来C++中是不同的( 注1 ). 于是这个原本很清晰的问题在我头脑中又模糊起来. 本着实践出真知的原则, 我特意写了一小段代码调查了一下, 现将结果拿出来与大家分享.1classProgram{2staticvoidMain(string[]args){3try{4inti=newProgr... 阅读全文
posted @ 2007-07-10 15:00 Ivan Zou 阅读(1797) 评论(2) 推荐(0) 编辑
摘要: Buddy System是一种经典的内存管理算法. 在Unix和Linux操作系统中都有用到. 其作用是减少存储空间中的空洞, 减少碎片, 增加利用率.在Webus空间管理组件(WSM)中, 我也提供了Buddy System的实现, 关于这种算法的详细描述, 建议大家看经典教材 " 数据结构" 一书第8章第4节.呵呵, 蓝色经典! 我在此仅谈谈如下三个问题:1. Buddy System的基本原... 阅读全文
posted @ 2007-04-04 23:58 Ivan Zou 阅读(5592) 评论(0) 推荐(0) 编辑
摘要: 呵呵, 本来应该发布为随笔的, 不过错发为文章了. 这里转一下, 顺便做个摘要:用Lucene.Net轻松创建最简单的搜索引擎Lucene是当下最受欢迎的Java开源搜索引擎开发包. 其实从本质上说, 它就是一个索引和检索的软件系统.在Lucene中有一种特定的类型: Document, 它是一个Key-Value类型的集合. 我们只要将需要被索引的内容填入进去, Lucene就能够自动为其建立索... 阅读全文
posted @ 2007-04-01 12:27 Ivan Zou 阅读(593) 评论(0) 推荐(0) 编辑