随笔分类 - Lucene / solr 概念学习系列
摘要:Solr 读数据流程: 1、用户提供搜索关键词,也就是搜索语句,需要经过分词器处理以及语言处理。 2、对处理之后的关键词,搜索索引找出对应Document 即记录。 3、用户根据需要从找到的Document中提取需要的Field字段。
阅读全文
摘要:Solr 写数据流程: 1、源字符串首先经过分词器处理,包括:拆分词以及去除stopword。 2、然后经过语言处理,包括大小写转换以及单词转换。 3、将源数据中需要的信息加入到Document中的各个Field字段中,并把需要索引的Field字段索引起来,同时把需要存储的Field字段存储起来。然
阅读全文
摘要:solr索引创建流程: 分词组件Tokenizer 分词组件(Tokenizer)会做以下几件事情(这个过程称为:Tokenize),处理得到的结果是词汇单元(Token)。 1、将文档分成一个一个单独的单词。 2、去除标点符号。 3、去除停词(stop word)。 语言处理组件 语言处理组件(l
阅读全文
摘要:正排索引(正向索引):正排表是以文档的ID为关键字,表中记录文档中每个字的位置信息,查找时扫描表中每个文档中字的信息直到找出所有包含查询关键字的文档。 正排表结构如图1所示,这种组织方法在建立索引的时候结构比较简单,建立比较方便且易于维护;因为索引是基于文档建立的,若是有新的文档加入,直接为该文档建
阅读全文
摘要:Solr 核心组成就是:SolrHome 和 SolrCore。 SolrHome:SolrHome是Solr运行的主目录,该目录可以包含多个solrcore目录。 SolrCore:每个solrcore相互独立,可以单独对外提供搜索和索引服务;Solr实例就是一个solrcore目录,包含运行so
阅读全文
摘要:1.基于标准的开放接口:Solr搜索服务器支持通过XML、JSON和HTTP查询和获取结果。 2.易管理:Solr可以通过HTML页面管理,Solr配置通过XML完成。 3.可伸缩性:能够有效地复制到另外一个Solr搜索服务器。 4.灵活的插件体系:新功能能够以插件的形式方便的添加到Solr服务器上
阅读全文
摘要:在大型的SQL数据库上很难执行高速的查询有Solr是Apache 下的一个开源项目,使用Java基于Lucene开发的全文检索服务; 它是一个独立的企业级搜索应用服务器,它对外提供类似于Web-service的API接口。用户可以通过http请求,向搜索引擎服务器提交一定格式的XML文件,生成索引;
阅读全文
摘要:ElasticSearch vs Lucene的关系,简单一句话就是,成品与半成品的关系。 (1)Lucene专注于搜索底层的建设,而ElasticSearch专注于企业应用。 (2)Luncene是单节点的API,ElasticSearch是分布式的。 (3)Luncene需要二次开发,才能使用。
阅读全文
摘要:福利 => 每天都推送 欢迎大家,关注微信扫码并加入我的4个微信公众号: 大数据躺过的坑 Java从入门到架构师 人工智能躺过的坑 Java全栈大联盟 每天都有大量的学习视频资料和精彩技术文章推送... 人生不易,唯有努力。 百家号 :九月哥快讯 快手号: jiuyuege ElasticSearc
阅读全文
摘要:福利 => 每天都推送 欢迎大家,关注微信扫码并加入我的4个微信公众号: 大数据躺过的坑 Java从入门到架构师 人工智能躺过的坑 Java全栈大联盟 每天都有大量的学习视频资料和精彩技术文章推送... 人生不易,唯有努力。 百家号 :九月哥快讯 快手号: jiuyuege Solr (1)是Apa
阅读全文
摘要:福利 => 每天都推送 欢迎大家,关注微信扫码并加入我的4个微信公众号: 大数据躺过的坑 Java从入门到架构师 人工智能躺过的坑 Java全栈大联盟 每天都有大量的学习视频资料和精彩技术文章推送... 人生不易,唯有努力。 百家号 :九月哥快讯 快手号: jiuyuege lucene (1)是一
阅读全文