Daily Report 2012.11.04 陈伯雄(step5)

关于search of this site设计的更改:

  上个版本用普通的顺序匹配算法,不建索引,而是对所有文章的内容进行字符串匹配,这个过程将会相当缓慢,当文章数目很大时,时间往往是无法忍受的,我们重新设计该部件的功能实现。

  由pipe组提供的数据库信息,从中提取出关键词(困难可能在于中文分词),建立关键词-文档ID倒排索引,当用户提供搜索词句时在进行匹配,返回匹配成功的文档LIST。

  以下是从网站上找到的建立倒排索引的思路:                      //http://blog.renren.com/share/252144050/1436749197

  顺排文件的建立

  假设有网页P1,P2,……,Pn,给每个网页文件赋予一个编号Pid,给每个关键字赋予一个编号keyi,假设key是网页文件中的一个关键字,ni表示该关键字在网页文件中出现的次数,<hit1,hit2,…,hitn>表示该关键字在网页文件中的位置信息。首先将网页内容切分成一系列关键字:Pi={Key1,key2,…,keyn}。建立以下顺排文件:

P1={[n1,Key1(hit1,hit2,…,hitn)],…,[nx,keyi(hit1,hit2,…,hitx)] }

P2={[n1,Key1(hit1,hit2,…,hitn)],…,[nn,keyk(hit1,hit2,…,hitn)] }

…………

Pn={[n1,Key1(hit1,hit2,…,hitn)],…,[ny,keyj(hit1,hit2,…,hity)] }

  例如,对以下两段文字进行顺排文件操作。

  “随着经济的发展,人们对生活的品质要求越来越高。特别是在视觉欣赏方面,更是追求精益求精。如何把模糊的图像变得清晰,把暗淡的色彩变得色彩鲜艳是一个非常值得研究的课题。并且在数字电视、扫描仪、医疗图像、计算机视觉、卫星监测、航空摄像等方面对图像的清晰度有着广泛的需求。目前基于网格和密度的聚类方法已经渗透到各个领域,且得到了令人意想不到的效果。本文是将基于网格和密度的聚类方法运用到模糊图像中,从而对图像进行增色处理。”

  “数字图像处理又称为计算机图像处理,它是指将图像信号转换成数字信号并利用计算机对其进行处理的过程。数字图像处理最早出现于20世纪50年代,当时的电子计算机已经发展到一定水平,人们开始利用计算机来处理图形和图像信息。数字图像处理作为一门学科大约形成于20世纪60年代初期。早期的图像处理的目的是改善图像的质量,它以人为对象,以改善人的视觉效果为目的。”

假设第一段文字是一个网页P1的全部内容,段首的起始位置为1。第二段文字是第二个网页P2的全部内容,段首的起始位置为1。

对网页进行自动分词,得到关键字以及关键字在网页文件中出现的位置信息。顺排文件的结果为:

P1={[1,经济(3)],[1,发展(6)],……,[2,视觉(26,93)],……,[5,图像(46,88,107,177,182)],……,[1,处理(189)]}

P2={[4,数字(1,29,48,101)],[8,图像(3,13,21,49,96,103,130,140)],……,[1,视觉(156)],……,[2,目的(135,161)]}

  实现倒排文件的原理

  顺排文件是以网页来索引关键字的,即形式为(网页→关键字),不符合搜索引擎的需要。因此,需进行倒排处理,以关键字来索引网页,即形式为(关键字→网页):
Keyi→{[Pid1,ni1(hit1,hit2,…,hitni1)],…,[Pidn,nin(hit1,hit2,…,hitnin)]}

对以上顺排文件中建立的两个实例网页P1和P2的顺排文件进行倒排,倒排文件的结果为:

经济→{[P1,1(3)]}

发展→{[P1,1(6)],[P2,1(74)]}

……

视觉→{[P1,2(26,93)],[P2,1(156)]}

……

图像→{[P1,5(46,88,107,177,182)],[P2,8(3,13,21,49,96,103,130,140)]}

……

  综上所述,倒排文件的实现过程是:先得到顺排文件,然后根据顺排文件得到倒排文件,从而实现由关键字来索引网页。

  倒排文件的时间代价主要取决于词汇表的组织方式,词汇表文件通常较小且比较固定,当数据量很大时,使用倒排表更有效率。

 

分享:关于倒排索引fly1988happy上的博客有较详细分析http://www.cnblogs.com/fly1988happy/archive/2012/04/01/2429000.html

 

 

posted @ 2012-11-05 00:05  DOOM_buaascse  阅读(226)  评论(0编辑  收藏  举报