搜索引擎 - 随笔分类(第4页) - 宏宇

Solr游标查询提高翻页效率

摘要：长期以来，我们一直有一个深分页问题。如果直接跳到很靠后的页数，查询速度会比较慢。这是因为Solr的需要为查询从开始遍历所有数据。直到Solr的4.7这个问题一直没有一个很好的解决方案。与最近发布的Solr的版本中，Solr使用了所谓的游标大幅度提高深翻页的性能。问题深分页的问题是很清楚。Solr 阅读全文

posted @ 2018-08-21 13:29 宏宇阅读(500) 评论(0) 推荐(0) 编辑

solr使用cursorMark做深度分页

摘要：深度分页深度分页是指给搜索结果指定一个很大的起始位移。普通分页在给定一个大的起始位移时效率十分低下，例如start=1000000,rows=10的查询，搜索引擎需要找到前1000010条记录然后再返回最后10条。Solr为了最后10条记录只会检索排序字段，但是前1000010条记录的内部排序开阅读全文

posted @ 2018-08-21 13:26 宏宇阅读(485) 评论(0) 推荐(0) 编辑

Solr中使用游标进行深度分页查询以提高效率（适用的场景下）

摘要：通常，我们的应用系统，如果要做一次全量数据的读取，大多数时候，采用的方式会是使用分页读取的方式，然而分页读取的方式，在大数据量的情况下，在solr里面表现并不是特别好，因为它随时可能会发生OOM的异常，在solr里面通过rows和start参数，非常方便分页读取，但是如果你的start=1000 阅读全文

posted @ 2018-08-21 13:25 宏宇阅读(587) 评论(0) 推荐(0) 编辑

solr defType查询权重排序

摘要：Solr的defType有dismax/edismax两种，这两种的区别，可参见：http://blog.csdn.net/duck_genuine/article/details/8060026 下面示例用于演示如下场景：有一网站，在用户查询的结果中，需要按这样排序：这样的查询排序使用普通的查阅读全文

posted @ 2018-08-21 11:12 宏宇阅读(464) 评论(0) 推荐(0) 编辑

Solr：Schema设计

摘要：Solr将数据以结构化的方式存入系统中，存储的过程中可以对数据建立索引，这个结构的定义就是通过schema.xml来配置的。 <?xml version="1.0" encoding="UTF-8" ?> <!-- Licensed to the Apache Software Foundation 阅读全文

posted @ 2018-08-21 11:11 宏宇阅读(322) 评论(0) 推荐(1) 编辑

solr学习（六）：使用自定义int/long类型主键

摘要：需求分析：我不想使用solr默认的主键id，我想换成其他的，比如我的文章id为article_id，我想让article_id作为主键。而且，我的主键是int类型，而solr的主键默认是string类型，我们还需要修改，修改后，还会报错，我们还需要来解决报错问题。实践：第一步：我们需要打开阅读全文

posted @ 2018-08-21 11:10 宏宇阅读(679) 评论(0) 推荐(0) 编辑

solr 忽略大小写

摘要：1、types标签下加入如下fieldType 2、fields标签下自定义field的type改为str_lower即可解决 java调用传参不区分大小写，皆可查询到结果 solr查询string类型时，有时需要使之不区分大小写（ case insensitive），这时，就需要重新定义数据类型：阅读全文

posted @ 2018-08-20 13:48 宏宇阅读(2687) 评论(0) 推荐(0) 编辑

solr 请求参数过长报错，Solr配置maxBooleanClauses属性不生效原因分析

摘要：博客分类：上次已经写过一篇关于solr中，查询条件过多的异常的文章，这次在总结扩展一下：有时候我们的查询条件会非常多，由于solr的booleanquery默认设置的条件数为1024，所以超过这个限制的会报异常，这样设置的原因是为了限制过多条件查询，降低查询的性能，但有时候又必须这样查，或分析阅读全文

posted @ 2018-08-17 16:58 宏宇阅读(981) 评论(0) 推荐(0) 编辑

solr系统query检索词特殊字符的处理

摘要：solr是基于 lucence开发的应用，如果query中带有非法字符串，结果很可能是检索出所有内容或者直接报错，所以你对用户的输入必须要先做处理。输入星号，能够检索出所有内容；输入加号，则会报错。官方的处理办法（java，因为solr是java开发的）： https://svn.apache.o 阅读全文

posted @ 2018-08-17 16:56 宏宇阅读(654) 评论(0) 推荐(0) 编辑

理解Solr缓存及如何设置缓存大小

摘要：文献地址：http://wangdg.com/understanding-and-tuning-solr-cache/ 理解Solr缓存及如何设置缓存大小为了得到最好的检索性能，Solr会在内存中缓存不同的数据： Result Set: 检索结果 Filter: filter query结果 Do 阅读全文

posted @ 2018-08-14 17:39 宏宇阅读(829) 评论(0) 推荐(0) 编辑

SOLR缓存调优

摘要：缓存在 Solr 中充当了一个非常重要的角色，Solr 中主要有这三种缓存： Filter cache（过滤器缓存），用于保存过滤器（fq 参数）和层面搜索的结果 Document cache（文档缓存），用于保存 lucene 文档存储的字段 Query result（查询缓存），用于保存查询的结阅读全文

posted @ 2018-08-14 17:38 宏宇阅读(1355) 评论(0) 推荐(0) 编辑

Solr的Filed中indexed与stored属性

摘要：摘要： Solr的Filed中有很多参数，其中的index和store参数让人有点犯晕。消失的Field 1 上面的这个Field的index和store属性都设置为false。如果你插入一片含有该field的doc到Solr，你会发现不能query这个field，就好像刚才插入的数据丢失了。异阅读全文

posted @ 2018-08-14 11:21 宏宇阅读(554) 评论(0) 推荐(0) 编辑

solr 7+tomcat 8 + mysql实现solr 7基本使用(安装、集成中文分词器、定时同步数据库数据以及项目集成)

摘要：基本说明 Solr是一个开源项目，基于Lucene的搜索服务器，一般用于高级的搜索功能； solr还支持各种插件(如中文分词器等)，便于做多样化功能的集成；提供页面操作，查看日志和配置信息，功能全面。 solr 7 + tomcat 8实现solr 7的安装 Solr自带集成jetty，但是一般都阅读全文

posted @ 2018-08-14 11:19 宏宇阅读(292) 评论(0) 推荐(0) 编辑

Solr优化案例分析

摘要：随着umc接入主机的数量越来越多，每天产生的syslog日志数量也在剧增，之前一天产生的syslog数量才不到1W，随着整个集团的网络设备不端接入，导致现在每天产生的syslog数量大概在180w左右，而这些syslog对网络和PE同学排查线上网络设备问题又是十分重要的，他们的要求是可以提供查阅读全文

posted @ 2018-08-14 11:18 宏宇阅读(1018) 评论(0) 推荐(0) 编辑

solr亿万级索引优化实践（四）

摘要：本篇是这个系类的最后一篇，但优化方案不仅于此，需要后续的研究与学习，本篇主要从schema设计的角度来做一些实践。 schema.xml 这个文件的作用是定义索引数据中的域的，包括域名称，域类型，域是否索引，是否分词，是否存储，是否标准化，是否存储项向量等等。在solr6中这个文件是存放在zooke 阅读全文

posted @ 2018-08-14 11:13 宏宇阅读(359) 评论(0) 推荐(0) 编辑

提高solr的搜索速度

摘要：之前是使用12台机分布式搜索，1台为主机做索引并分发给子机，8台做大索引搜索服务，3 台做小索引搜索服务，配置基本是内存在4-8G，cpu:2-8core的服务器，索引的大小为8G。搜索的响应时间是150ms左右。（使用solr架构的搜索服务）在一次技术群中，中听到一位sina的架构师，他们是采阅读全文

posted @ 2018-08-14 11:12 宏宇阅读(379) 评论(20) 推荐(0) 编辑

关于Solr的使用总结的心得体会

摘要：摘要：在项目中使用Solr作为搜索引擎对大数据量创建索引，提供服务，本文是作者对Solr的使用总结的一点心得体会，具体包括使用DataImportHandler从数据库中近实时同步数据、测试Solr创建索引的性能、以及测试Solr的搜索效率总结等。具体搜索引擎概念、Solr搭建方法、数据库mys 阅读全文

posted @ 2018-08-14 11:11 宏宇阅读(632) 评论(0) 推荐(0) 编辑

Solr如何使用in语法查询

摘要：Solr可以用AND、|| 布尔操作符表示查询的并且，用OR、&& 布尔操作符表示或者用NOT、!、-（排除操作符不能单独与项使用构成查询）表示非如果要用在查询的时候使用类似sql的in（1，2，3，4）可以这样post_id:(1,2,3,4)或者post_id:1 OR post_i 阅读全文

posted @ 2018-08-13 18:41 宏宇阅读(717) 评论(0) 推荐(0) 编辑

Solr学习总结（六）solr的函数查询Function Queries

摘要：摘要：函数查询允许你使用一个或多个数字字段的真实值生成一个相关性分数，函数查询在standard，DisMax，eDisMax下都能使用。查询函数可以是常量，字段或者其他函数的组合。使用函数可以影响结果的排序。本文整理自Solr官方文档：https://lucene.apache.org/sol 阅读全文

posted @ 2018-08-10 11:49 宏宇阅读(4658) 评论(1) 推荐(0) 编辑

学习MongoDB 八： MongoDB索引（索引限制条件）（二）

摘要：一、简介我们上一篇介绍了索引基本操作，通过db.collection.createIndex(keys, options)语法创建索引，我们继续介绍地理空间索引、索引的限制，使我们在MongoDB时能提高查询效率。索引的语法： db.collection.createIndex(keys,opt 阅读全文

posted @ 2018-08-10 09:26 宏宇阅读(936) 评论(0) 推荐(0) 编辑

随笔分类 - 搜索引擎

搜索

常用链接

最新随笔

积分与排名

随笔分类 (773)

随笔档案 (2153)

文章分类 (15)

文章档案 (19)

友情链接

阅读排行榜

评论排行榜

推荐排行榜

最新评论