（4.15）全文索引的使用

全文索引的概念：搜索引擎如何工作？

总结就是一句话：直接看倒排索引图。

总结：

　　词组包含所有存在行的唯一标识。

信息检索已经发展的非常成熟了，应该所有人都不陌生。我有幸这几年接触过并且实际做过一些搜索引擎开发的工作，特此总结并分享给大家。实际上，一个成熟的搜索引擎是想当复杂的，比如百度的，就分nginx，vui，us，as，bs，da.....等等这些模块，当然这些简写的字母大家也不必了解，只要知道它确实复杂就可以。

今天我所讲的是一个简化版的搜索引擎，简化到只涉及到倒排建立和拉取。虽然简单，但是它是整个搜索引擎的最核心组件。一个最简单的搜索引擎如下图所示：

merger：接收查询请求，分词后请求下游Indexer分别获取各个indexer的局部TopK文档，归拢后排序返回全局相似度最高的TopK文档。
indexer：负责倒排拉取，并利用夹角余弦算法计算相似度，返回TopK结果。夹角余弦可以在 http://www.cnblogs.com/haolujun/p/8011776.html 中了解。
index：倒排索引。

sqlserver如何添加全文索引

在SQL Server 中提供了一种名为全文索引的技术，可以大大提高从长字符串里搜索数

据的速度，不用在用LIKE这样低效率的模糊查询了。

下面简明的介绍如何使用Sql2008 全文索引

一、检查服务里面带有Full-text字样的服务是否存在并开启

如果不存在带有Full-text字样的服务的，确认是否安装了sqlserverFullTextSearch

--检查数据库PS2是否支持全文索引，如果不支持
--则使用sp_fulltext_database 打开该功能

if(select databaseproperty('PS2','isfulltextenabled'))=0
execute sp_fulltext_database 'enable'

二、新建全文目录

全文目录是用来存储全文索引的

三、为表定义全文索引

四、点击下一步，按提示选择

1.确认下一步

2.选择唯一索引，通常是主键

3.选择要建立的全文索引列，对于断字符的选择如果列存的是中文就选择chinese,如果是英文就选择English

4.选择索引更新方式，可以先自动更新，以后数据量大了可以设置添加全文索引的计划

5.选择全文目录

五、全文索引的SQL查询关键字

建立好全文索引后就可以使用SQL语句来查询了，主要用带三个关键字 CONTAINS、FREETEXT、CONTAINSTABLE和FREETEXTTABLE

1. CONTAINS

搜索单个词和短语的精确或模糊的匹配项，要搜索的内容必须是个有意义的词语，比如说“苹果”、“建设厅”，不能是一些没意义的词语，比如“阿迪撒啊是”,“儿儿的”这样的词语即使

LIKE是能查询出来，但全文索引对这样没意义的词语可能没有建立索引，查不出来

SELECT *
FROM dbo.Business
WHERE CONTAINS(Address,'旅游')

实现功能：查询Business表中Address列包含“旅游”的行

详细查看：http://msdn.microsoft.com/zh-cn/library/ms187787.aspx

2. FREETEXT

和CONTAINS类似，不同的是它会先把要查询的词语先进性分词然后在查询匹配项

01.select *
02.from dbo.Business
03.where freetext(Address,'带婴儿旅游')

详细查看：http://msdn.microsoft.com/zh-cn/library/ms176078.aspx

3.CONTAINSTABLE

在查询方式上与 CONTAINS 几乎一样。但CONTAINSTABLE 返回的是符合查询条件的表，在 SQL 语句中我们可以把它当作一个普通的表来使用，并且使用 CONTAINSTABLE 的查询对每一行返回一个相关性排名值 (RANK) 和全文键 (KEY)。

SELECT *
FROM Business AS FT_TBL
INNER JOIN CONTAINSTABLE(Business, *, 'ISABOUT (婴儿 WEIGHT (.8),赤水 WEIGHT (.4) )')
AS KEY_TBL ON FT_TBL.BusinessId = KEY_TBL.[KEY]
ORDER BY KEY_TBL.RANK DESC

ISABOUT 是这种查询的关键字，weight 指定了一个介于 0~1之间的数，类似系数。表示不同条件有不同的侧重。

CONTAINSTABLE 返回的表包含有特殊的两列：KEY，RANK。

被全文索引的表必须有唯一索引。这个唯一的索引列在返回的表中就成为 KEY。我们通常把它作为表连接的条件。

在某些网站搜索时，结果中会出现表示匹配程度的数字，RANK 与此类似。它的值在0~1000之间，标识每一行与查询条件的匹配程度，程度越高，RANK 的值大，通常情况下，按照 RANK 的降序排列。

详细查看：http://msdn.microsoft.com/zh-cn/library/ms189760.aspx

4. FREETEXTTABLE

在查询方式上与 FREETEXT 几乎一样。但 FREETEXTTABLE 返回的是符合查询条件的表，在 SQL 语句中我们可以把它当作一个普通的表来使用，并且使用 FREETEXT 的查询对每一行返回一个相关性排名值 (RANK) 和全文键 (KEY)。

SELECT * ,
BusinessID ,
Address
FROM Business AS FT_TBL
INNER JOIN FREETEXTTABLE(Business, Address, 'ISABOUT (带婴儿旅游 WEIGHT (.8),赤水 WEIGHT (.4) )')
AS KEY_TBL ON FT_TBL.BusinessId = KEY_TBL.[KEY]
ORDER BY KEY_TBL.RANK DESC

详细查看：http://msdn.microsoft.com/zh-cn/library/ms177652.aspx

--activate，是激活表的全文检索能力，也就是在全文目录中注册该表

execute sp_fulltext_table 'ProSearch','activate'

--填充全文索引目录

execute sp_fulltext_catalog 'ProSearchCatalog','start_full'

--查询全文索引是否建立完毕(0：完毕；1：正在建立)

select fulltextcatalogproperty('ProSearchCatalog','populateStatus')

三、介绍一下全文索引的一些相关操作
查看全文检索的配置情况：

sp_help_fulltext_catalogs -- 检查数据库有哪些全文目录
sp_help_fulltext_tables ProSearchCatalog -- 查看哪些表把全文索引建立在T_testData下
sp_help_fulltext_columns ProSearch -- 查看test表哪些字段配置了全文索引

drop fulltext index on test -- 撤销test上的全文检索
drop fulltext catalog FT_testData -- 撤销全文目录FT_testData

详细介绍请查看全文：https://cnblogs.com/qianzf/

原文博客的链接地址：https://cnblogs.com/qzf/

全文索引需要注意：

表中必须有一个唯一性索引，当并不需要是主键。
一个表中只能有一个全文索引。
你需要告诉你的脚本你想使用全文索引，如何告诉呢？那就是使用关键字：CONTAINS、FULLTEXT、CONTAINSTABLE、FREETEXTTABLE。例如：SELECT * FROM table_name WHERE CONTAINS(fullText_column,'"search contents*"');需要记住CONTAINS等在不同场景、需求下的用法。
如果定义了变量作为传入值，那么就要注意是否需要在set字符的时候的前面加入N标识。
要对表设置全文索引，那就得先对数据库设置了全文索引，这样点击表右键的时候，“全文索引”选项才能用。
脚本在查找的时候是不区分大小写的。解决办法：SELECT * FROM Table_name WHERE Column_name='A' COLLATE Chinese_PRC_CS_AI;或者SELECT * FROM Table_name WHERE ASCII(Column_name) = ASCII('A');
Microsoft SQL Server 全文引擎 (MSFTESQL) 不是基于某一特定行中存储的值来构造 B 树结构，而是基于要索引的文本中的各个标记来创建倒排、堆积且压缩的索引结构。
全文索引并不一定能达到like这个谓词的效果，如LIKE '%qq%'。这正是本篇文章想要说明的。
如果数据库是在移动盘符上，好像就无法设置：数据库-属性-文件-“使用全文索引”了，这个时候chckbox是不可用的。（这个大家可以求证一下）
关于搜索结果的排序问题，全文索引并没有这个功能，也就是匹配度排序或者说是相似度排序。
Lucene中有一个Similarity类，Lucene Practical Scoring Function就包含了得分的计算公式，tf、idf。

参考转载：

1.全文索引的使用：https://www.cnblogs.com/qianzf/p/7131741.html

2.全文索引中的小坑：https://www.cnblogs.com/liwei225/p/5101716.html （核心意思就是一般不能绝对实现%%的功能，会出现许多不）

3.倒序排序的概念/全文索引的原理：https://www.cnblogs.com/gered/p/9561710.html

posted @ 2018-08-30 18:34 郭大侠1 阅读(444) 评论(0) 收藏举报

刷新页面返回顶部