君子博学而日参省乎己 则知明而行无过矣

博客园 首页 新随笔 联系 订阅 管理
  1057 随笔 :: 381 文章 :: 141 评论 :: 169万 阅读

随笔分类 -  Information Retrieval(信息检索)

摘要:服务端:elasticsearch 7.7.0 Docker部署 客户端:spring boot +thymeleaf+Java High Level REST Client 7.7.0 阅读全文
posted @ 2020-05-23 04:39 刺猬的温驯 阅读(644) 评论(0) 推荐(0) 编辑

摘要:通过网页解析,抽取网页正文内容 阅读全文
posted @ 2018-12-05 02:17 刺猬的温驯 阅读(194) 评论(0) 推荐(0) 编辑

摘要:1 LSA IntroductionLSA(latent semantic analysis)潜在语义分析,也被称为LSI(latent semantic index),是Scott Deerwester, Susan T. Dumais等人在1990年提出来的一种新的索引和检索方法。该方法和传统向... 阅读全文
posted @ 2015-12-11 23:47 刺猬的温驯 阅读(577) 评论(0) 推荐(0) 编辑

摘要:花了一个晚上 整合最新版本的spring-data-elasticsearch与elasticsearch,遇到各种版本冲突 之类的问题,测试效果如图: facet搜索: 阅读全文
posted @ 2015-11-23 07:42 刺猬的温驯 阅读(6549) 评论(5) 推荐(0) 编辑

摘要:信息检索概述信息检索是当前应用十分广泛的一种技术,论文检索、搜索引擎都属于信息检索的范畴。通常,人们把信息检索问题抽象为:在文档集合D上,对于由关键词w[1] … w[k]组成的查询串q,返回一个按查询q和文档d匹配度relevance(q, d)排序的相关文档列表D’。对于这一问题,先后出现了布尔... 阅读全文
posted @ 2015-06-24 04:08 刺猬的温驯 阅读(340) 评论(0) 推荐(0) 编辑

摘要:摘要:本文简要介绍和比较了目前搜索引擎所使用的排序算法,主要包括词频位置加权排序算法,链接分析排序算法,并着重介绍了PageRank算法和HITS算法的思想以及二者比较的优缺点。关键词:搜索引擎;排序; PageRank; HITS1前言Google和Baidu的崛起,很大程度上是由于他们使用了较以... 阅读全文
posted @ 2015-06-19 05:33 刺猬的温驯 阅读(3265) 评论(0) 推荐(0) 编辑

摘要:1. 检索模型概述 搜索结果排序时搜索引擎最核心的部分,很大程度度上决定了搜索引擎的质量好坏及用户满意度。实际搜索结果排序的因子有很多,但最主要的两个因素是用户查询和网页内容的相关度,以及网页链接情况。这里我们主要总结网页内容和用户查询相关的内容。 判断网页内容是否与用户査询相关,这依赖于搜索引擎... 阅读全文
posted @ 2015-06-19 05:27 刺猬的温驯 阅读(547) 评论(0) 推荐(0) 编辑

摘要:2.1基于词频统计——词位置加权的搜索引擎利用关键词在文档中出现的频率和位置排序是搜索引擎最早期排序的主要思想,其技术发展也最为成熟,是第一阶段搜索引擎的主要排序技术,应用非常广泛,至今仍是许多搜索引擎的核心排序技术。其基本原理是:关键词在文档中词频越高,出现的位置越重要,则被认为和检索词的相关性越... 阅读全文
posted @ 2015-06-19 05:20 刺猬的温驯 阅读(1215) 评论(0) 推荐(0) 编辑

摘要:第一定律 相关性定律听起来象是一篇学术论文,的确,就连第一,第二定律的提法以前也没有过,但是第一,第二定律的内容确早已在业界和学术界得到了公认。其实这第一定律是早在互联网出现之前就被学术界广泛研究过的,那就是所谓的相关性定律。这个领域那时叫情报检索,或信息检索,也有 叫全文检索的。那时的相关性都是基... 阅读全文
posted @ 2015-06-19 05:07 刺猬的温驯 阅读(380) 评论(0) 推荐(0) 编辑

摘要:搜索引擎发展到今天已经非常成熟了,并且还在高速发展中,很多学习SEO的朋友都问我,能不能教我们点搜索引擎原理。在这里我详细说一下搜索引擎三大基础定律。第一定律:相关性定律相关性定律是基于搜索引擎检索系统的,相关性定律主要是基于词频统计,当用户在搜索引擎首页输入检索词时,搜索引擎去找那些检索词在文章(... 阅读全文
posted @ 2015-06-19 05:05 刺猬的温驯 阅读(476) 评论(0) 推荐(0) 编辑

该文被密码保护。
posted @ 2014-01-08 21:27 刺猬的温驯 阅读(7) 评论(0) 推荐(0) 编辑

摘要:本文要描述的是solr的查询插件,该查询插件目的用于生成Lucene的查询Query,类似于查询条件表达式,与solr查询插件相关UML类图如下:如果我们强行将上面的类图纳入某种设计模式语言的话,本人姑且将之归入桥接模式(Bridge)吧;QParserPlugin插件的行为依赖于QParser的具... 阅读全文
posted @ 2014-01-07 11:55 刺猬的温驯 阅读(898) 评论(4) 推荐(0) 编辑

摘要:solr索引操作(包括新增 更新 删除 提交 合并等)相关UML图如下从上面的类图我们可以发现,其中体现了工厂方法模式及责任链模式的运用UpdateRequestProcessor相当于责任链模式中的处理器角色,我们通过如下的对象图也许更能反映多个UpdateRequestProcessor类型的处... 阅读全文
posted @ 2014-01-02 00:16 刺猬的温驯 阅读(512) 评论(0) 推荐(0) 编辑

摘要:上文描述了solr3.6.0怎么采用maven管理的方式在eclipse中搭建开发环境,在solr中,为了提高搜索性能,采用了缓存机制,这里描述的是LRU缓存,这里用到了LinkedHashMap类要基于LinkedHashMap来实现LRU缓存,我们可以选择inheritance, 也可以选择 d... 阅读全文
posted @ 2013-11-25 02:38 刺猬的温驯 阅读(408) 评论(0) 推荐(0) 编辑

摘要:本文作为系列的第一篇,主要描述的是solr3.6.0开发环境的搭建首先我们需要从官方网站下载solr的相关文件,下载地址为http://archive.apache.org/dist/lucene/solr/3.6.0/将下载的文件解压到solr-3.6.0文件夹然后本人在myeclipse下建立w... 阅读全文
posted @ 2013-11-25 00:06 刺猬的温驯 阅读(737) 评论(0) 推荐(0) 编辑

摘要:目录信息检索的概念信息检索技术的分类全文检索与数据库查询对比全文检索工具一般由三部分构成全文检索中建立索引和进行检索的流程索引里面究竟存什么如何创建索引如何对索引进行检索Lucene系统结构与源码组织图Lucene索引文件的概念组成和结构组成1、信息检索的概念信息检索就是从信息集合中找出与用户需求相关的信息。被检索出的信息除了文本外,还有图像、音频、视频等多媒体信息。2、信息检索技术的分类目前信息检索技术可分为3类:全文检索:把用户的查询请求和全文中的每一个词进行比较,不考虑查询请求与文本语义上的匹配。在信息检索工具中,全文检索是最具通用性和实用性的。数据检索:查询要求和信息系统中数据都遵循一 阅读全文
posted @ 2013-06-22 05:36 刺猬的温驯 阅读(1420) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示