随笔分类 -  lucene

摘要:solr 有facet search ,BOBO也有;现在lucene3.4之后也有了,这个是贡献版本,在apache 官方的包里面有提供,这种功能对于分组统计和类别统计是一个很好的帮手;有了这个就不用羡慕solr了,不是我抗拒solr,只是像我们公司有时间让我们开发的情况下,我更偏向于底层点的api开发,lucene更得心应手。再说现在的solr没有近实时搜索,听说要4.0后有。废话不说,直接上代码public class Indexer { //需要索引的信息 public static String[] docTitles = { "white car", " 阅读全文
posted @ 2013-03-28 10:40 searchDM 阅读(445) 评论(0) 推荐(0) 编辑
摘要:Lucene支持对搜索条件的排序,一个条件或者多个条件,以及是升序还是降序,部分代码如下: stringINDEX_STORE_PATH=Server.MapPath("index");//INDEX_STORE_PATH为索引存储目录 stringkeyword=TextBox2.Text;//搜索内容 Hitsmyhit=null; IndexSearchermysea=newIndexSearcher(INDEX_STORE_PATH); QueryParserq=newQueryParser("indexcontent",newStandardA 阅读全文
posted @ 2011-08-10 10:42 searchDM 阅读(799) 评论(0) 推荐(0) 编辑
摘要:Lucene是个高度优化的倒转索引搜索引擎。它将倒转的索引存储在定制的文件格式中,文件格式被高度优化以确保能被搜索器快速的加载以及有效的搜索。Lucene产生这些结构以致索引几乎完全的被预先计算好 Lucene 通过使用Directory接口的实现来存储索引,注意不要将Directory与java.io混淆了.FSDirectory 是Directory接口的一个标准的实现,它将索引保存在文件系... 阅读全文
posted @ 2010-07-13 17:02 searchDM 阅读(3553) 评论(1) 推荐(0) 编辑
摘要:Lucene基础排序算法改进 Lucene基础排序算法: score_d = sum_t(tf_q * idf_t / norm_q * tf_d * idf_t / norm_dt_t) score_d: Document(d) 的得分 sum_t: Term(t) 的总和 tf_q: 查询中 t 的频度的平方根 tf_q: d 中 t 的频度的平方根 idf_t: log(numDocs/d... 阅读全文
posted @ 2010-04-27 22:21 searchDM 阅读(417) 评论(0) 推荐(0) 编辑
摘要:lucene .NET 搜索图片 功能实现 收藏 关于搜索部分 1想建立索引。构建jpg图片解析器,在索引时将jpg图片的exif信息及其文本信息如名称,存放路径,大小,日期等等加入索引!具体实现代码如下: public void BulidIndex(string path)//创建索引 { DateTime biStart = DateTime.Now;//创建索引开始 Directo... 阅读全文
posted @ 2010-04-27 21:37 searchDM 阅读(679) 评论(0) 推荐(0) 编辑
摘要:Lucene.Net进行多字段搜索Lucene.Net进行多字段搜索的关键代码:Lucene.Net.Search.IndexSearcher iSearcher = new Lucene.Net.Search.IndexSearcher(path); //多字段进行搜索 string[] fields = { "Title", "KeyWords", "Content" }; Lucene.Net.QueryParsers.QueryParser qp = new Lucene.Net.QueryParsers.MultiField 阅读全文
posted @ 2009-10-08 19:25 searchDM 阅读(469) 评论(0) 推荐(0) 编辑
摘要:Lucene.net索引合并 Lucene.Net.Store.Directory directory1 = FSDirectory.GetDirectory("e:""Index1", false);Lucene.Net.Store.Directory directory2 = FSDirectory.GetDirectory("e:""Index2", false); IndexWriter writer = new IndexWriter(directory1, new ChineseAnalyzer(), 阅读全文
posted @ 2009-10-08 19:03 searchDM 阅读(281) 评论(0) 推荐(0) 编辑
摘要:垂直搜索是针对某一个行业的专业搜索引擎,是搜索引擎的细分和延伸,是对网页库中的某类专门的信息进行一次整合,定向分字段抽取出需要的数据进行处理后再以某种形式返回给用户。垂直搜索引擎和普通的网页搜索引擎的最大区别是对网页信息进行了结构化信息抽取,也就是将网页的非结构化数据抽取成特定的结构化信息数据,好比网页搜索是以网页为最小单位,基于视觉的网页块分析是以网页块为最小单位,而垂直搜索是以结构化数据为最小单位。然后将这些数据存储到数据库,进行进一步的加工处理,如:去重、分类等,最后分词、索引再以搜索的方式满足用户的需求 垂直搜索引擎技术同信息采集技术有一些共同点,不同的是,信息采集主要是将采集的信息导 阅读全文
posted @ 2009-08-03 13:21 searchDM 阅读(947) 评论(0) 推荐(0) 编辑
摘要:一、框架介绍公司最近项目要用到全文检索,检索对象是一些网站的网页内容,要使用到网络爬虫工具。 目前技术选型对象主要有两个:Heritrix 和 Nutch。二者均为Java开源框架,Heritrix 是 SourceForge上的开源产品,Nutch为Apache的一个子项目,它们都称作网络爬虫/蜘蛛( Web Crawler),它们实现的原理基本一致:深度遍历网站的资源,将这些资源抓取到本地,使用的方法都是分析网站每一个有效的URI,并提交Http请求,从而获得相应结果,生成本地文件及相应的日志信息等。下面是二者的介绍,摘自网络:Heritrix 是个 "archival craw 阅读全文
posted @ 2009-08-03 13:18 searchDM 阅读(666) 评论(0) 推荐(0) 编辑
摘要:Lucene 是apache软件基金会jakarta项目组的一个子项目,是一个开放源代码的全文检索引擎工具包,即它不是一个完整的全文检索引擎,而是一个全文检索引擎的架构,提供了完整的查询引擎和索引引擎,部分文本分析引擎(英文与德文两种西方语言)。Lucene的目的是为软件开发人员提供一个简单易用的工具包,以方便的在目标系统中实现全文检索的功能,或者是以此为基础建立起完整的全文检索引擎。 作为一个开放源代码项目,Lucene从问世之后,引发了开放源代码社群的巨大反响,程序员们不仅使用它构建具体的全文检索应用,而且将之集成到各种系统软件中去,以及构建Web应用,甚至某些商业软件也采用了Lucen. 阅读全文
posted @ 2009-08-03 13:03 searchDM 阅读(798) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示