Solr配置文件 schema.xml
1 添加自己的分词器(mmseg4j)
意思是textCommplex 这个类型,用的是 com.chenlb.mmseg4j.solr.MMSegTokenizerFactory 这个分词器,词库是用到的solr.home目录下面的dic目录, 但是mmseg4j.jar 1.9 把词库包进去了,想要用外面的,需要把里面的删除掉, <filter class="solr.LowerCaseFilterFactory"/> 下面可选择性的添加一些自己的过滤器
<fieldType name="textComplex" class="solr.TextField" positionIncrementGap="100" > <analyzer> <tokenizer class="com.chenlb.mmseg4j.solr.MMSegTokenizerFactory" mode="complex" dicPath="dic"/> <filter class="solr.LowerCaseFilterFactory"/> </analyzer> </fieldType> <fieldType name="textMaxWord" class="solr.TextField" positionIncrementGap="100" > <analyzer> <tokenizer class="com.chenlb.mmseg4j.solr.MMSegTokenizerFactory" mode="max-word" dicPath="dic"/> <filter class="solr.LowerCaseFilterFactory"/> </analyzer> </fieldType> <fieldType name="textSimple" class="solr.TextField" positionIncrementGap="100" > <analyzer> <tokenizer class="com.chenlb.mmseg4j.solr.MMSegTokenizerFactory" mode="simple" dicPath="dic"/> <filter class="solr.LowerCaseFilterFactory"/> </analyzer> </fieldType>
2 添加自己的字段
name:字段名称 type:字段类型 indexed:是否索引 stored:是否存储 multiValued:是否是多值
NOT_ANALYZED_NOT_NORMS | YES | 标识符(主键、文件名),电话号码,身份证号,姓名,日期 |
ANAYLZED | YES | 文档标题和摘要 |
ANAYLZED | NO | 文档正文 |
NO | YES | 文档类型,数据库主键(不进行索引) |
NOT_ANALYZED | NO | 隐藏关键字 |
Field.Store.* YES:将会存储域值,原始字符串的值会保存在索引,以此可以进行相应的恢复操作,对于主键,标题可以是这种方式存储 NO:不会存储域值,通常与Index.ANAYLIZED合起来使用,索引一些如文章正文等不需要恢复的文档 使用Field.Index.*来进行操作 Index.ANALYZED:进行分词和索引,适用于标题、内容等 Index.NOT_ANALYZED:进行索引,但是不进行分词,如果身份证号,姓名,ID等,适用于精确搜索 Index.ANALYZED_NOT_NORMS:进行分词但是不存储norms信息,这个norms中包括了创建索引的时间和权值等信息 Index.NOT_ANALYZED_NOT_NORMS:即不进行分词也不存储norms信息 Index.NO:不进行索引
<field name="msg_title" type="textComplex" indexed="true" stored="true" multiValued="false" />
<field name="msg_content" type="textComplex" indexed="true" stored="false" multiValued="false" /> <field name="msg_text" type="textComplex" indexed="true" stored="false" multiValued="true" />
3 合并字段
把msg_title he msg_content 都拷贝到msg_text 中, 这是上面 field msg_text 的 multiValued 字段就必须为 true
<copyField source="msg_title" dest="msg_text"/> <copyField source="msg_content" dest="msg_text"/>
4 设置默认搜索字段
在schema.xml 中把注释这个打开进行修改,但是并不生效,因为 Un-commenting defaultSearchField will be insufficient if your request handler in solrconfig.xml defines "df", which takes precedence. That would need to be removed. <defaultSearchField>text</defaultSearchField> 在 solrconfig.xml 中也有这个配置,而且优先级更高,所以要让这个生效,必须把 <str name="df">text</str> 这个删除了 <lst name="defaults"> <str name="echoParams">explicit</str> <int name="rows">10</int> <str name="df">text</str> </lst>
5 过滤器
1 停用词过滤器,就是哪些词忽略掉,参考stopwords.txt (eg:a an and are as at be but) <filter class="solr.StopFilterFactory" ignoreCase="true" words="stopwords.txt" /> 2 同义词过滤器,就是哪些词是一个意思,参考synonyms.txt(eg: pixima => pixma) <filter class="solr.SynonymFilterFactory" synonyms="synonyms.txt" ignoreCase="true" expand="true"/> 3 转小写过滤器 <filter class="solr.LowerCaseFilterFactory"/>
6 动态字段
意识字段名称以_i结尾的,在名称匹配不到的情况下,就来匹配动态字段这个,那么就是int类型(eg:xxoo_i 找不到<Field name="xxoo"> 的情况) <dynamicField name="*_i" type="int" indexed="true" stored="true"/>