随笔分类 -  Lucene

通过盘古分词自定义规则功能实现软件版本号的提取
摘要:在某些软件下载网站的全文搜索应用中往往需要根据部分或者全部的版本号来匹配查询。然而对于版本信息的提取,无论是采用增加单词还是其他什么办法都无法很好的实现。好在盘古分词提供了自定义规则的接口,我们可以通过实现自己的自定义规则来完成一些特殊信息的提取。这篇文章也作为盘古分词自定义规则使用的一个示例文章,希望大家看了这篇文章后可以举一反三,实现诸如IP地址提取,Email 提取,网址提取等等特殊提取功能的自定义规则。首先先说一下需求。我们希望将版本信息字符串 比如 V1.2.1.0 从文章中提取出来,分词为 v/1.2.1.0/1.2.1/1.2 这种形式,这样无论搜索用户输入 1.2.1.0 还是 阅读全文

posted @ 2012-03-16 23:00 与时俱进 阅读(332) 评论(0) 推荐(0) 编辑

lucene.net tutorial with lucene 2.9.2
摘要:step 1 - create a new console applicationThen extract theLucene.Net.dllfrom theApache-Lucene.Net-2.9.2-incubating.bin.zipfile into yourlibfolder.You'll notice lots of other bits in this zip file. Especially of interest to you later might be the stuff in thecontribfolder. I might get to that in a 阅读全文

posted @ 2012-03-16 15:38 与时俱进 阅读(812) 评论(0) 推荐(0) 编辑

C#中文分词算法:ChineseAnalyzer
摘要:C#中文分词算法:ChineseAnalyzer。首先需要引用2个dll库文件Lucene.Net.dll+Lucene.China.dll,会打包在本文结束处,使用VS2008调试通过:usingLucene.Net;usingLucene.Net.Analysis;usingLucene.China;----------使用方法举例:privatevoidbutton1_Click(objectsender,EventArgse){StringBuildersb=newStringBuilder();sb.Remove(0,sb.Length);stringt1=""; 阅读全文

posted @ 2011-08-18 09:43 与时俱进 阅读(9304) 评论(1) 推荐(2) 编辑

利用Lucene.net对附件做搜索
摘要:最近研究了个全文搜索的,Lucene.net,很有名的开源组件(有Java版本)。其实谈不上研究,就是以前客户有个需要,要能搜索上传文件(如 word Excel Txt 等等),项目中这些附件都存在一个image字段中的,一直没有办法来搜索,本文就讲一下如何利用Lucene.net对附件做搜索功能,并且利用com组件来读取office内容。介绍一下Lucene.net的使用,使用了Lucene.Net.dll2.1 Highlighter.Net.dll 2.0(高亮) Lucene.Net.Analysis.Cn.dll 1.3(划词引擎):1 添加索引///<summary> 阅读全文

posted @ 2011-02-23 08:57 与时俱进 阅读(828) 评论(1) 推荐(0) 编辑

dotLucene 系列文章
摘要:Introduce dotLucene 系列一 --- 一个小例子 Index dotLucene 系列二 --- index 上 dotLucene 系列三 --- index 中 dotLucene 系列四 --- index 下 Search dotLucene 系列五 --- search 上 dotLucene 系列五 --- search 下 Analyse ... 本地链... 阅读全文

posted @ 2010-02-07 12:37 与时俱进 阅读(248) 评论(0) 推荐(0) 编辑

lucene学习之helloworld(简单实例)
摘要:引子 What’s Lucene Lucene是一个信息检索的函数库(Library),利用它你可以为你的应用加上索引和搜索的功能. Lucene的使用者不需要深入了解有关全文检索的知识,仅仅学会使用库中的一个类,你就为你的应用实现全文检索的功能. 不过千万别以为Lucene是一个象google那样的搜索引擎,Lucene甚至不是一个应用程序,它仅仅是一个工具,一个Library.你也... 阅读全文

posted @ 2009-10-16 09:24 与时俱进 阅读(731) 评论(0) 推荐(0) 编辑

Lucene.net试用
摘要:lucene.net好多人都知道的吧,反正我是最近才好好的看了一下,别笑我拿历史当新闻哦,不太了解Lucence的朋友先听我说两句哦。 Lucene的知识主要分为索引、搜索、分析器、性能优化几个部分。索引和搜索没啥可说的,看几个例子就会了,来回那一套儿,按部就班做几个实验就熟悉 了。分析器是Lucence的精华,又分为分词和过滤两部分,而且中文分词更是难点,我的例子里是用从博客园程序中提取出来的 ... 阅读全文

posted @ 2009-10-16 09:21 与时俱进 阅读(324) 评论(0) 推荐(0) 编辑

NHibernate.Search 基于Lucene.NET的全文索引
摘要:NHibernate.Search现在是NHiberante Contrilb下面的一个还没有发布的项目,也是从Hibernate.Search移植而来,把NHibernate和Lucene.NET结合在一 起,ORM持久化对象到数据库中,Lucene.NET提供索引及查询支持. 下面在实际使用一下NHibernate.Search的使用: 由于这个项目还没有发布,它的很多特性也是一直在变化,所... 阅读全文

posted @ 2009-10-16 08:52 与时俱进 阅读(1083) 评论(0) 推荐(0) 编辑

Lucene.Net 基本用法
摘要:本文仅记录一些简单的使用方法,供初学者参考。以下例子采用 Lucene.NET 1.9 版本,可取去 Lucene.Net 下载。1. 基本应用using System;using System.Collections.Generic;using System.Text;using Lucene.Net;using Lucene.Net.Analysis;using Lucene.Net.Anal... 阅读全文

posted @ 2009-10-16 08:50 与时俱进 阅读(3459) 评论(0) 推荐(0) 编辑

Lucene中的基本概念
摘要:本文定义了Lucene(版本1.3)用到的索引文件的格式。 Jakarta Lucene是用Java写成的,同时有很多团体正在默默的用其他的程序语言来改写它。如果这些新的版本想和Jakarta Lucene兼容,就需要一个与具体语言无关的Lucene索引文件格式。本文正是试图提供一个完整的与语言无关的Jakarta Lucene 1.3索引文件格式的规格定义。 随着Lucene不断发展,本文也应... 阅读全文

posted @ 2009-10-16 08:44 与时俱进 阅读(358) 评论(0) 推荐(0) 编辑

友情链接:同里老宅院民居客栈