随笔分类 - Lucene
1
Lucene学习
摘要:1.搜索界的霸主————Google www.google.com 2.中国的霸者————百度搜索 www.baidu.com 3.元老级搜索————雅虎 http://www.yahoo.com.cn/ 4.搜索的联盟————中国搜索 http://www.zhongsou.com/ 5.天职是搜索————搜狗 http://www.sogou.com/ 6.问尽天下事————爱问 http:/...
阅读全文
摘要:FilesTube: 共享文件搜索引擎,文件来自:Rapidshare, MegaUpload, Megashares, YouSendIt, SaveFile, FileFront和Badongo等很多文件储存网站,支持的文件格式包括:AVI, MP3, MPEG, MPG, RAR, WMA, WMV, EXE, ZIP等,主要为媒体格式,不支持中文 Picsearch:专业图片搜索引擎,中文...
阅读全文
摘要:OpenWebSpider 是一个很好用的网络爬虫,也可以叫做“网络蜘蛛”. 安装: 1.使用Vs.net 2003 编译, 记得要copy libmysql.dll到工程里 2.配置文件openwebspider.conf 将已经启动了的 mysql数据库用户名,密码填写好 3.数据库建立 执行 sql_struct.txt 下的文件目录。OK Go ahead , grabble your w...
阅读全文
摘要:开源搜索引擎资源 开放源代码搜索引擎为人们学习、研究并掌握搜索技术提供了极好的途径与素材,推动了搜索技术的普及与发展,使越来越多的人开始了解并推广使用搜索技术。使用开源搜索引擎,可以大大缩短构建搜索应用的周期,并可根据应用需求打造个性化搜索应用,甚至构建符合特定需求的搜索引擎系统。搜索引擎的开源,无论是对技术人员还是普通用户,都是一个福音。 搜索引擎的工作流程主要分为三步:从互联...
阅读全文
摘要:最近由于工作需要,正在啃 DotLucene 的源码……呼……七个目录兮……四万行…… 不过关于 Lucene 这个东东的研究与褒奖已经有好多好多,所以偶决定先写点实用的,以方便人民大众。 —— 用 DotLucene 做项目不能不 De 的 Bugs 大集合:(以 DotLucene 1.9 RC1 Build 002 alpha 为准,目前发现 Bug 三大条)第一条:位置:Document...
阅读全文
摘要:在上篇文章我们说了怎么建立索引,现在说的是怎么搜索这个索引,最主要的我们是要理解startAt的含义,理解了他什么问题都解决了。还有这个例子的分页很经典,我发现google和baidu用的都是这个分页方法。主要就两个方法,一个search()方法,主要是显示当前页的搜索记录 1protected void search() 2 { 3 DateTime start = Dat...
阅读全文
摘要:DotLucene的官方网站这样介绍:DotLucene是一个专门为NET设计的功能强大的搜索引擎!他上面也有一个在线demo,搜索3.5GB的文本数据所花费的时间在0.1秒左右!大家可以点这里测试。我也记得在我的一个网站 99收藏夹(注1)里面有个在线帮助,他是用StreamReader来读文本数据的,其他的是读数据库,我发现不管是读数据库还是一xml的形式读xml文档,不管你的数据库如何优化,...
阅读全文
摘要://建立索引的类 public class Indexer { private IndexWriter writer; Document doc = new Document(); public Indexer(string Directory) { ...
阅读全文
摘要:利用Lucene.net搜索引擎进行多条件搜索的做法 1 联合两个索引查询,已解决: IndexSearcher[] searchers = new IndexSearcher[2]; searchers[0] = new IndexSearcher(m_indexpath); searchers[1] = new IndexSearcher(m_outindexpath); Multi...
阅读全文
摘要:还有就是一个Paging属性,他的作用就是分页,输出分页的html这个属性很经典1/**//// 2 /// 开始分页3 /// 4 /// 5 protected DataTable Paging6 {7 get8 { 9 //知道了startAt,分页也很容易了,现在根据startAt得到当前是第几页,注意,现在这里...
阅读全文
摘要:主要就两个方法,一个search()方法,主要是显示当前页的搜索记录 1protected void search()2 {3 DateTime start = DateTime.Now;//搜索的开始时间4 //得到索引所在的目录,我们在上个console程序里把索引放到了index目录下5 string indexDirectory = Ser...
阅读全文
摘要:using System;using System.Diagnostics;using System.Runtime.InteropServices;using System.Text; namespace IFilter{[Flags]public enum IFILTER_INIT : uint{ NONE = 0, CANON_PARAGRAPHS = 1, HARD_LINE_...
阅读全文
摘要:天运用Lucene.net做全文索引查询时,碰到了这个问题。在baidu搜索了一下,也有朋友碰到同样的问题:“我在ASP.NET中使用Lucene.NET组件实现高亮显示..可是出现问题..说什么不能访问(如下图),另外如果在ASP.NET中建立索引后..搜索时有些东西搜索不到,在WinForm中又没事..这又是什么问题呢??请牛人们帮忙说明: 执行当前 Web 请求期间,出现未处理的异常。请检查...
阅读全文
摘要:1 、问题的来源 增加分词以后结果的准确度提高了,但是用户反映返回结果的速度很慢。原因是, Lucene 做每一篇文档的相关关键词的高亮显示时,在运行时执行了很多遍的分词操作。这样降低了性能。 2 、解决方法 在 Lucene1.4.3 版本中的一个新功能可以解决这个问题。 Term Vector 现在支持保存 Token.getPositionIncrement() 和 ...
阅读全文
摘要:首先要区分搜索引擎和搜索的区别,更多的时候我们在需要的仅仅是对数据库的搜索。而搜索引擎则是个相对独立的系统,他提供的是一个相对完整的服务。作为一个商业级别的搜索引擎,一般需要以下技术:1. 全文检索引擎在全文信息中按一定的组合费率检索用户输入的关键词,并按照相关度提供返回索引序号,以便于页面程序获取数据进行分页显示。作为一个专业搜索引擎,对于全文检索引擎的要求比较苛刻。首先,必须在1秒以内返回搜索...
阅读全文
摘要:本文仅记录一些简单的使用方法,供初学者参考。以下例子采用 Lucene.NET 1.9 版本,可取去 Lucene.Net 下载。1. 基本应用 using System;using System.Collections.Generic;using System.Text;using Lucene.Net;using Lucene.Net.Analysis;using Lucene.Net.Ana...
阅读全文
摘要:Lucene是一个基于Java的全文索引工具包。 基于Java的全文索引引擎Lucene简介:关于作者和Lucene的历史 全文检索的实现:Luene全文索引和数据库索引的比较 中文切分词机制简介:基于词库和自动切分词算法的比较 具体的安装和使用简介:系统结构介绍和演示 Hacking Lucene:简化的查询分析器,删除的实现,定制的排序,应用接口的扩展 从Lucene我们还可以学...
阅读全文
摘要:1 lucene简介1.1 什么是luceneLucene是一个全文搜索框架,而不是应用产品。因此它并不像www.baidu.com 或者google Desktop那么拿来就能用,它只是提供了一种工具让你能实现这些产品。1.2 lucene能做什么要回答这个问题,先要了解lucene的本质。实际上lucene的功能很单一,说到底,就是你给它若干个字符串,然后它为你提供一个全文搜索服务,告诉你你...
阅读全文
摘要:1. 有时对于一个Document来说,有一些Field会被频繁地操作,而另一些Field则不会。这时可以将频繁操作的Field和其他Field分开存放,而在搜索时同时检索这两部分Field而提取出一个完整的Document。 这要求两个索引包含的Document的数量必须相同。 在创建索引的时候,可以同时创建多个IndexWriter,将一个Document根据需要拆分成多个包含部分Fiel...
阅读全文
摘要:Lucene.Net 系列一本文介绍了什么是Lucene,Lucene能做什么. 如何从一个文件夹下的所有txt文件中查找特定的词? 本文将围绕该个实例介绍了lucene.net的索引的建立以及如何针对索引进行搜索.最后还将给出源代码供大家学习. 源代码下载 What’s LuceneLucene是一个信息检索的函数库(Library),利用它你可以为你的应用加上索引和搜索的功能. Lucene...
阅读全文
1