sqlserver,mysql,oracle通用的模拟和改进的全文搜索算法

问：数据库效率最低的地方是什么?

答：表扫描

问：表扫描常见的情况是

答：like '%a%' 这类查询

如果使用全文检索引擎，又无法满足我们的需求的时候怎么办，比如要从

一个商品名称 "农夫山泉300ml" 里面查找"泉3" ，全文搜索引擎就失效了。

我们可以改进为：

1.建立一个索引表，这个表里面str允许保存若干字符，作为非聚集索引

create table t1 (id1 identity(1,1) primary key , str varchar(10), goods_id integer);

在str上建立非聚集索引

2.当我们保存新的商品信息的时候

将 "农夫山泉300ml" 拆分成

goods_id=1

insert into t1(str,goods_id)values('农',1);

insert into t1(str,goods_id)values('夫',1);

insert into t1(str,goods_id)values('农夫',1);

insert into t1(str,goods_id)values('山泉',1);

insert into t1(str,goods_id)values('泉3',1);

...

等任意组合的若干连续字符的索引记录。

当需要模糊查找 like '%泉3%'的时候，变成

select * from goods where goodsid in (select distinct goods_id from t1 where str='泉3');

这种方法，在很多的论坛一类的代码中有体现。

不过，这种方法更加适合需要模糊查询的字段比较短，而查询又有模糊，又有大量关联的情况，比如：

select * from goods, purchase where goods.goodsid=purchase.goodsid and goodsname like '泉3';

这种情况.转换后是

select * from goods, purchase where goods.goodsid=purchase.goodsid and goodsid in (select distinct goods_id from t1 where str='泉3');

posted on 2014-10-28 12:36 stevenlaz 阅读(279) 评论(0) 收藏举报

刷新页面返回顶部

steven's blogs