摘要:搜索某一定点名词的N层上位词及下位词业务逻辑层usingSystem;usingSystem.Collections.Generic;usingSystem.Linq;usingSystem.Text;usingSystem.Xml.Linq;usingProI.Search.Entity;usingProI.Search.DAL;usingProI.Search.Utilities.Security;usingProI.Search.Utilities;usingSystem.IO;usingSystem.Configuration;namespaceProI.Search.BLL{publ
阅读全文
文章分类 - 搜索/全文检索
摘要:http://cutesource.iteye.com/blog/808251)构建搜索引擎的一般模式。虽然,原来在读网络机器人这本书的时候就大致了解了构建一个搜索引擎所需要的几个组成部分,但只有真正接触Nutch这样真实,全面,可行的解决方案后,才真正能对搜索引擎的一般模式有所了解2)并行编程和算法。以前就知道搜索引擎里的算法都是并行,但如何构建这样的程序完全没有谱。但Nutch给出了例子和答案。3)map reduce模型。以前读过google lib里面关于map reduce的一篇论文,大致知道google是基于map reduce模型来构建并行程序的,但只停留在概念上,如何基于这样的
阅读全文
摘要:如何更改已注册的断字符和筛选器的列表 (Transact-SQL)
阅读全文
摘要:SQL Server 2005全文检索技术在网站上的应用实录一、前言“人类失去搜索,世界将会怎样?”,同样,很难想象一个拥有极大信息量的行业网站门户没有站内全文搜索将会出现怎样的局面,网站全文检索对于挖掘网站信息和整合网站资源的价值是不言而喻的。我们看到,通用型的搜索引擎已经成为了互联网世界的门户,而对于一个信息量极其丰富的网站而言,全网搜索或许会成为本网站的门户,正是所谓...
阅读全文
摘要:我利用了吕震宇根据Free版ICTCLAS改编而成.net平台下的ICTCLAS,把ICTCLAS的分词为lucene所用。以下是我写的程序,比较简单。大家看看评评,有什么要改进的地方,望大家指出Analyzer类: 1usingSystem;2usingSystem.Collections.Generic;3usingSystem.Text;45usingLucene.Net.Analysis;...
阅读全文
摘要:想做一个搜索引擎,最近浏览了许多社区,发现Lucene和Nutch用的很多,而这两个我总感觉难以区分概念,于是在查了些资料。下面是Lucene和Nutch创始人Doug Cutting 的访谈摘录:Lucene其实是一个提供全文文本搜索的函数库,它不是一个应用软件。它提供很多API函数让你可以运用到各种实际应用程序中。现在,它已经成为Apache的一个项目并被广泛应用着。这里列出一些已经使用Luc...
阅读全文
摘要:不选择使用Lucene的6大原因:6、Lucene 的内建不支持群集。 Lucene是作为嵌入式的工具包的形式出现的,在核心代码上没有提供对群集的支持。实现对Lucene的群集有三种方式:1、继承实现一个 Directory;2、使用Solr 3、使用 Nutch+Hadoop;使用Solr你不得不用他的Index Server ,而使用Nutch你又不得不集成抓取的模块;5、区间范围搜索速...
阅读全文
摘要:Lucene 中自定义排序的实现 [Java版]Lucene.net实现自定义排序笔记解决lucene在分布式检索下无法使用自定义排序规则的问题
阅读全文
摘要:--- index 中本文将进一步讨论有关lucene.NET建立索引的问题: 主要包含以下主题:1.索引的权重2.利用IndexWriter 属性对建立索引进行高级管理3.利用RAMDirectory充分发挥内存的优势4.利用RAMDirectory并行建立索引5.控制索引内容的长度6.Optimize 优化的是什么? 源代码下载 本文将进一步讨论有关Lucene.net建立索引的问题: 索引的...
阅读全文
摘要:Lucene 是一个基于 Java 的全文检索工具包,你可以利用它来为你的应用程序加入索引和检索功能。Lucene 目前是著名的 Apache Jakarta 家族中的一个开源项目,下面我们即将学习 Lucene 的索引机制以及它的索引文件的结构。 在这篇文章中,我们首先演示如何使用 Lucene 来索引文档,接着讨论如何提高索引的性能。最后我们来分析 Lucene 的索引文件结构。需要记住的是...
阅读全文
摘要:倒排索引(英语:Inverted index),也常被称为反向索引、置入档案或反向档案,是一种索引方法,被用来存储在全文搜索下某个单词在一个文档或者一组文档中的存储位置的映射。它是文档检索系统中最常用的数据结构。 有两种不同的反向索引形式: 一条记录的水平反向索引(或者反向档案索引)包含每个引用单词的文档的列表。一个单词的水平反向索引(或者完全反向索引)又包含每个单词在一个文档中的位置。[1] 后...
阅读全文
摘要:用 lucene 建立索引不可能每次都重新开始建立,而是按照新增加的记录,一次次的递增建立索引的IndexWriter类,有三个参数 IndexWriter writer = new IndexWriter(path, new StandardAnalyzer(),isEmpty);其中第三个参数是bool型的,指定它可以确定是增量索引,还是重建索引.对于从数据库中读取的记录,譬如要为文章建立索...
阅读全文
摘要:全文检索是指计算机索引程序通过扫描文章中的每一个词,对每一个词建立一个索引,指明该词在文章中出现的次数和位置,当用户查询时,检索程序就根据事先建立的索引进行查找,并将查找的结果反馈给用户的检索方式。这个过程类似于通过字典中的检索字表查字的过程。全 文检索的方法主要分为按字检索和按词检索两种。按字检索是指对于文章中的每一个字都建立索引,检索时将词分解为字的组合。对于各种不同的语言而言,字有不 同的含...
阅读全文
摘要:http://www.cnblogs.com/RainWaterLily/archive/2008/03/04/1089976.html
阅读全文
摘要:几个月前做毕业论文的时候需要用到中文分词技术,现在总结一下我所找到的资料。 一、什么是中文分词 众所周知,英文是以词为单位的,词和词之间是靠空格隔开,而中文是以字为单位,句子中所有的字连起来才能描述一个意思。例如,英文句子“I am a student”,用中文则为:“我是一个学生”。计算机可以很简单通过空格知道“student...
阅读全文
摘要:中文搜索引擎技术揭密:排序技术 作者 Winter 首发于e800.com.cn 【e800.com.cn 编者按】随着“眼球经济”席卷互联 网,成千上万的资金迅速流向最能吸引浏览着眼球的搜索引擎市场。有大量调查显示搜索引擎市场正处在高速发展时期,成为了未来几年内最具发展潜力的产业之 一。随着Google、百度、中国搜索等各具特色的搜索引擎逐渐成为人们最常用的网络工具,...
阅读全文
摘要:前言 信息的飞速增长,使搜索引擎成为人们查找信息的首选工具,Google、百度、yisou、中搜等大型搜索引擎一直人们讨论的话题。随着搜索市场价值的不 断增加,越来越多的公司开发出自己的搜索引擎,阿里巴巴的商机搜索、8848的购物搜索等也陆续面世,自然,搜索引擎技术也成为技术人员关注的热点。 搜索引擎技术的研究,国外比中国要早近十年,从最早的Archie,到后来的Excite,以及altvista...
阅读全文
摘要:【e800.com.cn 编者按】互联网发展的今天,一方面离 不开其开放、共享的特性带给人们的全新体验,另一方面也离不开数以亿计的为其提供各类丰富内容的网络节点。互联网被普及前,人们查阅资料第一想到的便是拥 有大量书籍资料的图书馆,到了今天你怎么想?或许今天的很多人都会选择一种更方便、快捷、全面、准确的方式——互联网。你可以坐在家里轻点几下鼠标就查到 想要的各类信息,这在互...
阅读全文