摘要:
一、Web搜索介绍前面我们都是对传统文档集进行检索,而Web搜索和传统的搜索完全不同,因为Web的文档集数量是不能估计的,并且形式多样;一般Web都是通过B/S架构进行实现的,客户端是浏览器,服务器端是web服务器,通过HTTP进行传输数据;浏览器发出请求并接收服务器的应答,浏览器会自动屏蔽那些不能理解的部分;Web的文档集是海量的,但是如果这些信息不能被搜索到的话,则这些信息是无用的,因此Web搜索很重要。Web搜索的文档集不仅要相关,而且要注重权威;可能会遇到的问题是有些网页是由图片组成的,没有文本文字;静态页面:固定页面;动态页面:与数据库交互的页面;Web网页集可以转化成一张图,节点表 阅读全文
摘要:
一、打分排序的特性其实对于打分排序来说,我们最终只需要确定文档的相对顺序即可,因此我们可以简化打分的算法,只需要保持相对顺序不变即可;二、快速排序及打分方法我们前面的打分排序方法都需要计算查询及每篇文档的余弦相似度,然后需要取出打分最高的前K篇文档,这样做的复杂度是很高的;其实如果有一个算法能够近似求出前K篇文档但是复杂度少很多(不需要计算所有文档的得分),则我们通常会采用后一种算法;通用方法:预先找到文档子集A(远小于初始文档集),包含了大多数的候选文档,并在A中计算得分最高的前K篇文档;以下方法都是基于这个规则计算的;1.索引去除技术(1)只考虑term的idf超过阈值的posting;因 阅读全文
摘要:
一、Ranked Retrieval在前面我们讨论的都是布尔查询,因此得出的结果要么匹配,要么不匹配,当匹配的结果很多时,就会发现我们需要对文档进行排序;二、参数化索引和域索引文档除了文本外还有元数据,比如创建时间、文档标题等,因此我们也可以对他进行限制;比如限制查询文档结果必须是2010年发表的;参数化索引(parametric index):某个字段取值存在一定限制,如取值范围的限制,日期,则为参数化索引;域索引:某个字段取值没有任何限制,比如标题,可以是任意文本;三、域加权评分一篇文档有域f1,f2,f3,而每个域都有不同的权重;每个域都有一个权值w1,w2,w3;权值的确定是通过机器学 阅读全文