oracle全文检索简单实例

原理简介：

Oracle通过其专利的词法分析器(lexer),将文章中所有的表意单元（Oracle称为term）找出来，记录在一组以dr$开头的表中，同时记下该term出现的位置、次数、hash值等信息。检索时，Oracle从这组表中查找相应的term，并计算其出现频率，根据某个算法来计算每个文档的得分（score）,即所谓的‘匹配率’。而lexer则是该机制的核心，它决定了全文检索的效率。Oracle针对不同的语言提供了三个不同的lexer：

basic_lexer:（缺省）

针对英语。它能根据空格和标点来将英语单词从句子中分离，还能自动将一些出现频率过高已经失去检索意义的单词作为‘垃圾’处理，如if , is等，具有较高的处理效率。但该lexer应用于汉语则有很多问题，由于它只认空格和标点，而汉语的一句话中通常不会有空格，因此，它会把整句话作为一个term,事实上失去检索能力。以‘中国人民站起来了’这句话为例，basic_lexer分析的结果只有一个term ,就是‘中国人民站起来了’。此时若检索‘中国’，将检索不到内容。

chinese_vgram_lexer:

专门的汉语分析器，支持所有汉字字符集（ZHS16CGB231280ZHS16GBKZHT32EUCZHT16BIG5ZHT32TRISZHT16MSWIN950ZHT16HKSCSUTF8）。该分析器按字为单元来分析汉语句子。‘中国人民站起来了’这句话，会被它分析成如下几个term: ‘中’，‘中国’，‘国人’，‘人民’，‘民站’，‘站起’，起来’，‘来了’，‘了’。可以看出，这种分析方法，实现算法很简单，并且能实现‘一网打尽’，但效率则是差强人意。

chinese_lexer:

这是一个新的汉语分析器，只支持utf8字符集。上面已经看到，chinese vgram lexer这个分析器由于不认识常用的汉语词汇，因此分析的单元非常机械，像上面的‘民站’，‘站起’在汉语中根本不会单独出现，因此这种term是没有意义的，反而影响效率。chinese_lexer的最大改进就是该分析器能认识大部分常用汉语词汇，因此能更有效率地分析句子，像以上两个愚蠢的单元将不会再出现，极大提高了效率。但是它只支持utf8,如果你的数据库是zhs16gbk字符集，则只能使用笨笨的那个Chinese vgram lexer.

简单例子：

假设当前Oracle用户为：nicholas

创建测试表：

create table TBL_TEST
(
  ID   NUMBER(9) not null,
  NAME VARCHAR2(50)
)
tablespace TBL_TEST_TS
  pctfree 10
  initrans 1
  maxtrans 255
  storage
  (
    initial 64K
    minextents 1
    maxextents unlimited
  );

插入测试数据：

设置词法分析器(lexer)

SQL> grant execute on ctxsys.ctx_ddl to nicholas;
SQL> BEGIN
  2  ctx_ddl.create_preference('name_lexer','chinese_lexer');
  3  END;
  4  /

针对字段name建立全文索引

SQL> create index tbl_test_index on tbl_test(name) indextype is ctxsys.context parameters('lexer name_lexer');

查看词法分析器分析结果

SQL> select token_text,token_count from dr$tbl_test_index$i;

词法分析器分析结果

TOKEN_TEXT                                                       TOKEN_COUNT
---------------------------------------------------------------- -----------
I                                                                          2
中华人民共和国                                                             1
中国                                                                       6
丽君                                                                       1
了                                                                         1
人民                                                                       1
仿佛                                                                       1
克邓                                                                       1
几个                                                                       1
君                                                                         1
啊                                                                         1
啊啊                                                                       1
垃圾                                                                       1
就                                                                         1
就萨                                                                       1
快                                                                         2
搜救                                                                       1
救给                                                                       1
睡觉                                                                       2
给                                                                         2

TOKEN_TEXT                                                       TOKEN_COUNT
---------------------------------------------------------------- -----------
美国                                                                       2
萨克                                                                       1
路                                                                         1
邓丽                                                                       1
附近                                                                       1
飞机                                                                       1

设置自动更新索引job（在pl/sql developer中）

点击应用即可。

设置自动优化索引job

测试：

SQL> select score(1) as score , id,name from tbl_test where contains(name,'中国',1)>0 order by score(1) desc;

结果：

     SCORE         ID NAME
---------- ---------- --------------------------------------------------
         4          1 中国
         4          2 中国人民
         4          3 中国快睡觉路附近了
         4          4 中国啊啊啊
         4          5 中国搜救给i
         4          7 中国就萨克邓丽君

posted on 2010-07-09 01:30 Nicholas_F 阅读(796) 评论(0) 收藏举报