Solr的检索运算符、分析器（Analyzer）、TokenizerFactory（分词器）、TokenFilterFactory（分词过滤器）详解

Solr有哪些检索运算符？

1. “:” 指定字段查指定值，如返回所有值*:*
2. “?” 表示单个任意字符的通配
3. “*” 表示多个任意字符的通配（不能在检索的项开始使用*或者?符号）
4. “~” 表示模糊检索，如检索拼写类似于”roam”的项这样写：roam~将找到形如foam和roams的单词；roam~0.8，检索返回相似度在0.8以上的记录。
5. 邻近检索，如检索相隔10个单词的”apache”和”jakarta”，”jakarta apache”~10
6. “^” 控制相关度检索，如检索jakarta apache，同时希望去让”jakarta”的相关度更加好，那么在其后加上”^”符号和增量值，即jakarta^4 apache
7. 布尔操作符AND、||
8. 布尔操作符OR、&&

9. 布尔操作符NOT、!、- （排除操作符不能单独与项使用构成查询）
10. “+” 存在操作符，要求符号”+”后的项必须在文档相应的域中存在
11. ( ) 用于构成子查询
12. [] 包含范围检索，如检索某时间段记录，包含头尾，date:[200707 TO 200710]
13. {} 不包含范围检索，如检索某时间段记录，不包含头尾
date:{200707 TO 200710},注意4.0以上版本可以设置半开闭区间
14. / 转义操作符，特殊字符包括+ - && || ! ( ) { } [ ] ^ ” ~ * ? : /

分析器（Analyzer）是包含两个部分：分词器和过滤器。分词器功能将句子分成单个的词元token，过滤器就是对词元进行过滤。(TokenizerFactory（分词器）、TokenFilterFactory（分词过滤器）)

Solr有哪些TokenizerFactory？

1. solr.LetterTokenizerFactory

创建org.apache.lucene.analysis.LetterTokenizer.

分词举例：

"I can't" ==> "I", "can", "t"

2. solr.WhitespaceTokenizerFactory

创建org.apache.lucene.analysis.WhitespaceTokenizer

3. solr.LowerCaseTokenizerFactory

创建org.apache.lucene.analysis.LowerCaseTokenizer

分词举例：

"I can't" ==> "i", "can", "t"

4. solr.StandardTokenizerFactory

创建org.apache.lucene.analysis.standard.StandardTokenizer

分词举例： "I.B.M. cat's can't" ==>

ACRONYM: "I.B.M.", APOSTROPHE:"cat's", APOSTROPHE:"can't"

说明：该分词器，会自动地给每个分词添加type，以便接下来的对type敏感

5. solr.HTMLStripWhitespaceTokenizerFactory

从结果中出去HTML标签，将结果交给WhitespaceTokenizer处理。

例子：

my <a href="www.foo.bar">link</a>	my link
<?xml?><br>hello<!--comment-->	hello
hello<script><-- f('<--internal--></script>'); --></script>	hello
if a<b then print a;	if a<b then print a;
hello <td height=22 nowrap align="left">	hello
a<b A Alpha&Omega Ω	a<b A Alpha&Omega Ω

6. solr.HTMLStripStandardTokenizerFactory

从结果中出去HTML标签，将结果交给StandardTokenizer处理。

7. solr.PatternTokenizerFactory

说明：按照规则表达式样式对分本进行分词。

例子：处理对象为，mice; kittens; dogs，他们由分号加上一个或多个的空格分隔。

</analyzer>

</fieldType>

Solr有哪些TokenFilterFactory？

1. solr.StandardFilterFactory

创建：org.apache.lucene.analysis.standard.StandardFilter.

说明：移除首字母简写中的点和Token后面的’s。仅仅作用于有类的Token，他们是由StandardTokenizer产生的。

例子：StandardTokenizer+ StandardFilter

"I.B.M. cat's can't" ==> "IBM", "cat", "can't"

2. solr.LowerCaseFilterFactory

创建：org.apache.lucene.analysis.LowerCaseFilter.

3. solr.TrimFilterFactory【solr1.2】

创建：org.apache.solr.analysis.TrimFilter

说明：去掉Token两端的空白符

例子：

" Kittens! ", "Duck" ==> "Kittens!", "Duck".

4. solr.StopFilterFactory

创建：org.apache.lucene.analysis.StopFilter

说明：去掉如下的通用词，多为虚词。

"a", "an", "and", "are", "as", "at", "be", "but", "by",

"for", "if", "in", "into", "is", "it",

"no", "not", "of", "on", "or", "s", "such",

"t", "that", "the", "their", "then", "there", "these",

"they", "this", "to", "was", "will", "with"

自定义的通用词表的使用可以通过schema.xml文件中的"words"属性来指定，如下。

</analyzer>

</fieldtype>

5. solr.KeepWordFilterFactory【solr1.3】

创建：org.apache.solr.analysis.KeepWordFilter

说明：作用与solr.StopFilterFactory相反，保留词的列表也可以通过”word”属性进行指定。

</analyzer>

</fieldtype>

6. solr.LengthFilterFactory

创建：solr.LengthFilter

说明：过滤掉长度在某个范围之外的词。范围设定方式见下面。

</analyzer>

</fieldtype>

7. solr.PorterStemFilterFactory

创建：org.apache.lucene.analysis.PorterStemFilter

说明：采用Porter Stemming Algorithm算法去掉单词的后缀，例如将复数形式变成单数形式，第三人称动词变成第一人称，现在分词变成一般现在时的动词。

8. solr.EnglishPorterFilterFactory

创建：solr.EnglishPorterFilter

说明：关于句子主干的处理，其中的"protected"指定不允许修改的词的文件。

9. solr.SnowballPorterFilterFactory

说明：关于不同语言的词干处理

10.solr.WordDelimiterFilterFactory

说明：关于分隔符的处理。

11.solr.SynonymFilterFactory

说明：关于同义词的处理。

12.solr.RemoveDuplicatesTokenFilterFactory

说明：避免重复处理。

13. solr.EnglishMinimalStemFilterFactory

说明：它是一个简单的词干器，只处理典型的复数形式。不同于多数的词干器，它词干化的词元是拼写合法的单词，它们是单数形式的。它的好处是使用这个词干器的域可以进行普通的搜索，还可以进行搜索提示。

对一个document进行索引时，其中的每个field中的数据都会经历分析（分析就是组合分词和过滤），最终将一句话分成单个的单词，去掉句子当中的空白符号，大写转换小写，复数转单数，去掉多余的词，进行同义词代换等等。

如：This is a blog! this，is，a会被去除，最后剩下blog。当然 ! 这个符号也会被去除的。

这个过程是在索引和查询过程中都会进行的，而且通常两者进行的处理的都是一样的，这样做是为了保证建立的索引和查询的正确匹配。

分析器（Analyzer）是包含两个部分：分词器和过滤器。分词器功能将句子分成单个的词元token，过滤器就是对词元进行过滤。

solr自带了一些分词器，如果你需要使用自定义的分词器，那么就需要修改schema.xml文件。

schema.xml文件允许两种方式修改文本被分析的方式，通常只有field类型为solr.TextField的field的内容允许定制分析器。

方法一：使用任何org.apache.lucene.analysis.Analyzer的子类进行设定。

</fieldType>

方法二：指定一个TokenizerFactory，后面跟一系列的TokenFilterFactories（他们将按照所列的顺序发生作用），Factories被用来创建分词器和分词过滤器，他们用于对分词器和分词过滤器的准备配置，这样做的目的是为了避免通过反射创造的开销。

......

</analyzer>

.......

</analyzer>

需要说明的一点是，一些 Analyzer，TokenizerFactory 或者 TokenFilterFactory应该用带包名的全类名进行指定，请确保他们位于Solr的classpath路径下。对于org.apache.solr.analysis.*包下的类，仅仅通过solr.*就可以进行指定。

如果你需要使用自己的分词器和过滤器，你就需要自己写一个factory，他必须是BaseTokenizerFactory（分词器）或BaseTokenFilterFactory（过滤器）的子类。就像下面一样。

public class MyFilterFactory extends BaseTokenFilterFactory {

public TokenStream create(TokenStream input) {

return new MyFilter(input);

}

}

对于IK3.1.5版本已经完全支持了solr的分词，这样就不用自己来编写了，而对于中文的切词的话，IK对solr的支持已经很完美了。

Solr提供了哪些TokenizerFactories？

solr.LetterTokenizerFactory，创建org.apache.lucene.analysis.LetterTokenizer。分词举例：“I can't”→“I”，“can”，“t”，字母切词。
solr.WhitespaceTokenizerFactory，创建org.apache.lucene.analysis.WhitespaceTokenizer，主要是切除所有空白字符。
solr.LowerCaseTokenizerFactory，创建org.apache.lucene.analysis.LowerCaseTokenizer，分词举例：“I can't”→“i”,“can”，“t”，主要是大写转小写。
solr.StandardTokenizerFactory，创建org.apache.lucene.analysis.standard.StandardTokenizer，分词举例："I.B.M cat's can't"→ACRONYM：“I.B.M”，APOSTROPHE：“cat's”，APOSTROPHE：“can't”，说明：该分词器会自动地给每个分词添加type，以便接下来的对type敏感的过滤器进行处理，目前仅仅只有StandardFilter对Token的类型是敏感的。
solr.HTMLStripWhitespaceTokenizerFactory，从结果中除去HTML标签，将结果交给WhitespaceTokenizer处理。例子：

my<a href = "www.foo.bar">link</a>

my link

<?xml?><br>hello

hello

hello<script><-- f('<--internal--></script>'); --></script>

hello

if a<b then print a;

if a<b then print a;

hello <td height=22 newrapalign = "left">

hello

a<b &#65 Alpha&OmegaΩ

a<b A Alpha&Omega Ω

solr.HTMLStripStandardTokenizerFactory，从结果中除去HTML标签，将结果交给StandardTokenizer处理。
solr.PatternTokenizerFactory，按照规则表达式样式对分本进行分词。例子：处理对象为mice；kittens；dogs，他们由分号加上一个或多个的空格分隔。

<fieldType name = "semicolonDelimited" class = "solr.TextField">

<analyzer>

<tokenizer class = "solr.PatternTokenizerFactory" pattern = ";*" />

</analyzer>

</fieldType>

Solr有哪些TokenFilterFactories？

solr.StandardFilterFactory，创建org.apache.lucene.analysis.standard.StandardFilter。移除首字母简写中的点和Token后面的's。仅仅作用于有类的Token，他们是由StandardToken产生的。例如："I.B.M. cat's can't"→“IBM”，“cat”，“cat't”。
solr.LowerCaseFilterFactory，创建org.apache.lucene.analysis.LowerCaseFilter。
solr.TrimFilterFactory【solr1.2】，创建org.apache.solr.analysis.TrimFilter，去掉Token两端的空白符，例："Kittens! ","Duck"→"Kittens!","Duck"。
solr.StopFilterFactory，创建org.apache.lucene.analysis.StopFilter，去掉如下的通用词，多为虚词。

"a","an","and","are","as","at","be","but","by","for","if","in","into","is","it","no","not","of","on","or","s","such","t","that","the","their","then","there","these","they","this","to","was","will","with"。

自定义的通用词表的使用可以通过schema.xml文件中的“words”属性来指定，如下。

<fieldType name = "teststop" class = "solr.TextField">

<analyzer>

<tokenizer class = "solr.LowerCaseTokenizerFactory" />

<filter class = "solr.StopFilterFactory" words = "stopwords.txt" ignoreCase = "true" />

</analyzer>

</fieldType>

solr.KeepWordFilterFactory【solr1.3】，创建org.apache.solr.analysis.KeepWordFilter，作用与solr.StopFilterFactory相反，保留词的列表也可以通过“word”属性进行指定。

<fieldType name = "testkeep" class = "solr.TextField">

<analyzer>

<filter class = "solr.KeepWordFilterFactory" words = "keepwords.txt" ignoreCase = "true" />

</analyzer>

</fieldtype>

solr.LengthFilterFactory，创建solr.LengthFilter，过滤掉长度在某个范围之外的词，范围设定方式见下面。

<fieldType name = "lengthfilt" class = "solr.TextField">

<analyzer>

<tokenizer class = "solr.WhitespaceTokenizerFactory" />

<filter class = "solr.LengthFilterFactory" min = "2" max = "5" />

</analyzer>

</fieldType>

solr.PorterStemFilterFactory，创建org.apache.lucene.analysis.PorterStemFilter，采用Porter Stemming Algorithm
算法去掉单词的后缀，例如将复数形式变成单数形式，第三人称动词变成第一人称，现在分词变成一般现在时的动词。
solr.EnglishPorterFilterFactory，创建solr.EnglishPorterFilter，关于句子主干的处理，其中的“protected”指定不允许修改的词的文件。
solr.SnowballPorterFilterFactory，关于不同语言的词干处理。
solr.WordDelimiterFilterFactory，关于分隔符的处理。
solr.SynonymFilterFactory，关于同义词的处理。
solr.RemoveDuplicatesTokenFilterFactory，避免重复处理。

下面来记录并分享下solr的各个过滤器极其用法：

1、solr.StandardFilterFactory
创建：org.apache.lucene.analysis.standard.StandardFilter.
作用：移除首字母简写中的“ . ”和“ 's ”。仅作用于有类的Token，它们是由StandardTokenizer产生的。
2、solr.LowerCaseFilterFactory
创建：org.apache.lucene.analysis.LowerCaseFilter.
作用：大写转小写
3、solr.TrimFilterFactory
创建：org.apache.solr.analysis.TrimFilter
作用：去掉两端的空白符
4、solr.StopFilterFactory
创建：org.apache.lucene.analysis.StopFilter
作用：
1)去掉如下的通用词，多为虚词
“a”,“an”,“and”,“are”,“as”,“at”,“but”,“be”,“by”,“for”,“if”,“in”,“into”,“is”,“it”,“no”,“not”,“of”,“on”,“or”,“s”,“such”,“t”,“that”,“the”,“their”,“then”,“there”,
“these”,“they”,“this”,“to”,“was”,“will”,“with”
2）自定义的通用词表的使用可以通过schema.xml文件中的“word”属性来指定，如下：

<filedType name="teststop" class="solr.TextField">
	<analyzer>
		<tokenizer class="solr.LowerCaseTokenizerFactory"/>
		<filter class="solr.StopFilterFactory" words="stopwords.txt " ignoreCase="true"/>
	</analyzer>
</fieldType>

5、solr.KeepWordFilterFactory
创建：org.apache.solr.analysis.KeepWordFilter
作用:与solr.StopFilterFactory相反，保留词的列表也可以通过“word”属性进行指定

<fieldtype>
	<analyzer>
		<filter class="solr.KeepWordFilterFactory" words="keepwords.txt" ignoreCase="true"/>
	</analyzer>
</fieldtype>

6、solr.LengthFilterFactory
创建：solr.LengthFilter
作用：过滤掉长度在某个范围之外的词，范围设定方式如下：

<fieldtype name="lengthfilte" class="solr.TextField">
	<analyzer>
		<tokenizer class = "solr.WhitespaceTokenizerFactory"/>
		<filter class="solr.LengthFilterFactory" min="2" max="5"/>
	<analyzer>
</fieldtype>

7、solr.PorterStemFilterFactory
创建：org.apache.lucene.analysis.PorterStemFilter
作用：采用Porter Stemming Algorithm算法去掉单词的后缀，例如将复数形式变成单数形式，第三人称动词变成第一人称，现在分词变成一般现在时的动词。

8、solr.EnglishPorterFilter
创建：solr.EnglishPorterFilter
作用：关于句子主干的处理，其中的“protected"指定不允许修改的词的文件

9、solr.SnowballPorterFilterFactory
关于不同语言的词干处理

10、solr.WordDelimiterFilterFactory
关于分隔符的处理

11、solr.SynonymFilterFactory
关于同义词的处理

12、solr.RemoveDuplicatesTokenFilterFactory
避免重复处理

posted on 2021-12-24 01:22 宏宇阅读(789) 评论(0) 收藏举报