solr之搭建企业搜索平台,配置文件详细schema.xml

solr3.1版本，solr3.x版本大部分应该一致。

一个一个的配置项来谈谈schema.xml 配置：

以下是针对schema.xml 配置文件的剖析：

1. <types></types>这个标签和它的意义一样，是用来表示数据有哪些类型，这些类型当然是solr内部定义的类型和自定义类型。

2.

和他上面解释一样，string类型是不分词的，要建索引，要存储

3.数值类型，有如下几个类型是默认数值类型，如果想用于排序请用 tint/tfloat/tlong/tdouble类型

<fieldType name="int" class="solr.TrieIntField" precisionStep="0" omitNorms="true" positionIncrementGap="0"/>
    <fieldType name="float" class="solr.TrieFloatField" precisionStep="0" omitNorms="true" positionIncrementGap="0"/>
    <fieldType name="long" class="solr.TrieLongField" precisionStep="0" omitNorms="true" positionIncrementGap="0"/>

4.时间类型：如果想用于快速排序查询，用tdate（看到这里我的排序没用tdate，得改啊。。）

Note: For faster range queries, consider the tdate type

5.专门用于分词的字段。在里面包含了定义使用什么分词器，可以手工定制。

<tokenizer class="org.wltea.analyzer.solr.IKTokenizerFactory"/>
        <filter class="solr.SynonymFilterFactory" synonyms="synonyms.txt" ignoreCase="true" expand="true"/>
        <filter class="solr.StopFilterFactory"
                ignoreCase="true"
                words="stopwords.txt"
                enablePositionIncrements="true"
                />
        <filter class="solr.WordDelimiterFilterFactory" generateWordParts="1" generateNumberParts="1" catenateWords="0" catenateNumbers="0" catenateAll="0" splitOnCaseChange="1"/>
        <filter class="solr.LowerCaseFilterFactory"/>
        <filter class="solr.KeywordMarkerFilterFactory" protected="protwords.txt"/>
        <filter class="solr.PorterStemFilterFactory"/>
      </analyzer>

其他几个类别都是不常用的，也是通过分词器来定义不同的类别。和第五个类似。

6.索引字段名称定义。

<fields>
   

   <field name="id" type="string" indexed="true" stored="true" required="true" />
   <field name="sku" type="textTight" indexed="true" stored="true" omitNorms="true"/>

   <field name="alphaNameSort" type="alphaOnlySort" indexed="true" stored="false"/>
   <field name="manu" type="textgen" indexed="true" stored="true" omitNorms="true"/>
   <field name="cat" type="string" indexed="true" stored="true" multiValued="true"/>
   <field name="features" type="text" indexed="true" stored="true" multiValued="true"/>
   <field name="includes" type="text" indexed="true" stored="true" termVectors="true" termPositions="true" termOffsets="true" />

   <field name="weight" type="float" indexed="true" stored="true"/>

   <field name="popularity" type="int" indexed="true" stored="true" />
   <field name="inStock" type="boolean" indexed="true" stored="true" />
</fields>

id：是索引字段的唯一标识。

termVectors="true"属性主要用于相关搜索。

multiValued="true"属性，一般用于多个字段组成一个字段的情况。

一般用于查询的字段定义为multiValued。

7. <dynamicField name="*_i" type="int" indexed="true" stored="true"/>表示动态字段，暂时没用到。

这个配置文件的所有内容都进行了介绍。不足的地方希望多多批评。

posted @ 2013-04-23 16:03 Dream-Weaver 阅读(191) 评论(0) 编辑收藏举报

会员力量，点亮园子希望

刷新页面返回顶部

Dream-Weaver

solr之搭建企业搜索平台,配置文件详细schema.xml

公告