solr查询语法

还以为网上的solr最基础的东西应该很多，结果发现je这边都是一些部署的资料。到没用人给最基本的查询语法。在做查询时十分吃力，自己整理了几个例子来分享下，希望别人不要再走弯路。

首先说下，查询都是基于solrj。如果不清楚solrj。可以当做是对solr查询语句的一个api封装。

solr的查询其实都是向select这个servlet穿字符型的参数，例如:

Solr代码  
http://192.168.1.107:8983/solr/collection1/select?q=*%3A*&wt=xml&indent=true  

查询的字段格式一般是：字段名: 字段值

说明号":"会被urlcoding，变成“%3A。”

我没有看过solrj的源码。但是应该是将对select这个servlet的请求通过httpclient的方式的一种实现。

进入正题：

首先需要实例化 SolrQuery 对象，用来做要查询的参数集合。

Java代码  
SolrQuery q = new SolrQuery();  
q.setQuery("TITLE:中国人");  

1、最基本的字段查询：

Java代码  
TITLE:中国人  

即查询字段是TITLE 值包含“中国人”的所有结果集。

solr在查询时，会对传入的值分词，中国人有可能会被分成“中国”，“国人”，“中国人”。

包含着三个短语的语句都会被搜到。强制要求solr不分词，可以给短语加上双引号

Java代码  
TITLE:"中国人"  

这样就只返回值包含“中国人”这个词语的。中国和国人就不会返回。

2、多字段或关系 OR

Java代码  
TITLE:("中国人" AND "美国人" AND "英国人")  

3.多字段不包含的关系 NOT

这个语法就是我吃苦的地方，之前已经当多值or那样去查，结果不是，要写成

Java代码  
TITLE:(* NOT "上网费用高" NOT "宽带收费不合理" )  

4.查询一个范围 BETWEEN

Java代码  
NUM:[-90 TO 360 ]  OR CREATED_AT:[" + date1 + " TO " + date2 + "]  

适用于数字和日期类型 .

日期转换上， date 要用

Java代码  
String date1 = FastDateFormat.getInstance(  
                    "yyyy-MM-dd'T'HH:mm:ss.SSS'Z'").format(  
                    c.getStartTime().getTime())  

来转换，而不是惯用的 yyyy-MM-dd HH:mm:ss

配置好solr后，可以通过web管理界面进行管理和查询。web界面基本列出了大多数查询参数，可以通过这个学习lucene的查询语法。
solr的查询解析是通过queryParser来配置的（solrconfig.xml），一般我们用默认的即可。其各参数含义与用法简单解释如下：
q：查询输入，必须。可以使用运算符
fq：过滤查询。可以使用运算符
sort：排序的字段，格式为field score，多个字段之间用逗号隔开，比如sum(x_f, y_f) desc, price asc，默认是score desc
start：从哪一行开始
rows：获取多少行
fl：查询要输出的字段，字段之间用逗号隔开，比如title,price,seller，星号代表所有，默认就是星号。
df:定义查询时默认的查询field。
wt：返回的数据类型，可以是JSON、XML、python、ruby、php、csv等格式。
indent：true/false，返回的XML格式是否需要缩进(格式化展示)，默认为false
debugQuery：调试查询，会输出查询过程的一些参数。

高亮相关：
高亮是通过searchComponent来配置的，在solrconfig.xml中配置名为highlight的searchComponent即可，默认的实现是solr.HighlightComponent。
hl：true/false,是否高亮显示
hl.fl：高亮显示的字段
hl.example.pre：高亮显示的前缀
hl.exapmle.post：高亮显示的后缀
hl.requireFieldMatch：是否只在查询指定的field（只有当hl.usePhraseHighlighter为true时才生效）高亮显示，默认是在所有field都高亮
hl.usePhraseHighlighter：true/false,使用SpanScorer高亮查询短语
hl.highlightMultiTerm：true/false,如果SpanScorer被启用，这个参数针对前缀/模糊/范围/通配符等开启高亮显示

facet：true/false
facet是solr的高级搜索功能之一，可以给用户提供更友好的搜索体验（类似于面包屑导航的功能）。在搜索关键字的同时,能够按照 facet指定的字段进行分组统计。比如商品的分类、商品的规格等。facet的字段必须被索引，无须分词（分词意义不大），也无须存储。详细可参考《Solr的facet查询》
facet的查询结果返回字段为facet_counts，与responseHeader、response同级。
facet.query：类似于filter的语法，对任意字段进行筛选
facet.field：需要进行facet的字段
facet.prefix：对facet字段的前缀过滤
facet.sort：true/false，对facet以哪种顺序返回，true为按照count值从大到小排序，默认为true

spellcheck：拼写检查
spellcheck是通过component的方式实现的，你可以在solrconfig.xml文件中配置searchComponent来完成拼写检查的功能，默认的实现是solr.SpellCheckComponent，具体的配置参数和实现原理可以看这里《spellCheckComponent》

spatial：空间搜索
spatial是专门针对空间数据进行搜索的，空间位置的索引和存储fieldType是LatLonType或者SpatialRecursivePrefixTreeFieldType，通过使用空间搜索，你可以对点、面等数据建立索引，以圆形、方形或其他形状进行范围搜索，以及对搜索结果按距离排序等等，具体的配置参数和实现原理可以看这里《SpatialSearch》

检索运算符：
冒号":"： field:value结构查询，表示字段field值为value的查询。
通配符：？(任意一个字符) *(任意字符)
布尔操作：AND(并且，同&&) OR(或者，同||) +(包含) -(不包含) NOT(同!)，注意AND、OR、NOT均为大写
范围：[A TO B](从A到B之间，包含A和B,注意TO大写)，{A TO B}（从A到B之间，不包含A和B,注意TO大写）
子运算：()括号跟数学表达式上的差不多，比如：(瓜 OR 傻) AND 男人
模糊检索：~表示模糊检索，比如：roam~将找到形如foam和roams的单词；roam~0.8，检索返回相似度在0.8以上的记录
控制相关度：^表示相关度，如检索jakarta apache，同时希望让”jakarta”的相关度更加好，那么在其后加上”^”符号和增量值，即jakarta^4 apache

posted on 2018-07-30 17:01 宏宇阅读(5460) 评论(0) 编辑收藏举报

随笔分类

随笔档案

友情链接

搜索

常用链接

最新随笔

积分与排名

随笔分类 (773)

随笔档案 (2153)

文章分类 (15)

文章档案 (19)

友情链接

阅读排行榜

评论排行榜

推荐排行榜

最新评论