TOKENIZED,UN_TOKENIZED 解释

网上很多例子用的是lucene1.4.3，新版本的lucene在doc.add(new Field("content",curArt.getContent(),Field.Store.NO,Field.Index.TOKENIZED)); 这些地方与旧版本有很大的区别。
Field有两个属性可选：存储和索引。通过存储属性你可以控制是否对这个Field进行存储；通过索引属性你可以控制是否对该Field进行索引。这看起来似乎有些废话，事实上对这两个属性的正确组合很重要。
Field.Index             Field.Store       说明
TOKENIZED(分词)   YES                   被分词索引且存储
TOKENIZED             NO                   被分词索引但不存储
NO                         YES                   这是不能被搜索的，它只是被搜索内容的附属物。如URL等
UN_TOKENIZED     YES/NO             不被分词，它作为一个整体被搜索,搜一部分是搜不出来的
NO                         NO                   没有这种用法

如果要对某Field进行查找，那么一定要把Field.Index设置为TOKENIZED或UN_TOKENIZED。TOKENIZED会对Field的内容进行分词；而UN_TOKENIZED不会，只有全词匹配，该Field才会被选中。
如果Field.Store是No，那么就无法在搜索结果中从索引数据直接提取该域的值，会使null。

本文来自CSDN博客，转载请标明出处：http://blog.csdn.net/sightboy/archive/2009/10/20/4702709.aspx

posted @ 2009-12-02 11:33 周骏阅读(1930) 评论(0) 编辑收藏举报

刷新页面返回顶部

周骏

TOKENIZED,UN_TOKENIZED 解释

公告