新浪微博 Github
上一页 1 ··· 17 18 19 20 21 22 23 24 25 ··· 30 下一页
摘要: 一、Web搜索介绍前面我们都是对传统文档集进行检索,而Web搜索和传统的搜索完全不同,因为Web的文档集数量是不能估计的,并且形式多样;一般Web都是通过B/S架构进行实现的,客户端是浏览器,服务器端是web服务器,通过HTTP进行传输数据;浏览器发出请求并接收服务器的应答,浏览器会自动屏蔽那些不能理解的部分;Web的文档集是海量的,但是如果这些信息不能被搜索到的话,则这些信息是无用的,因此Web搜索很重要。Web搜索的文档集不仅要相关,而且要注重权威;可能会遇到的问题是有些网页是由图片组成的,没有文本文字;静态页面:固定页面;动态页面:与数据库交互的页面;Web网页集可以转化成一张图,节点表 阅读全文
posted @ 2012-01-07 11:07 xiazdong 阅读(219) 评论(0) 推荐(0) 编辑
摘要: 一、打分排序的特性其实对于打分排序来说,我们最终只需要确定文档的相对顺序即可,因此我们可以简化打分的算法,只需要保持相对顺序不变即可;二、快速排序及打分方法我们前面的打分排序方法都需要计算查询及每篇文档的余弦相似度,然后需要取出打分最高的前K篇文档,这样做的复杂度是很高的;其实如果有一个算法能够近似求出前K篇文档但是复杂度少很多(不需要计算所有文档的得分),则我们通常会采用后一种算法;通用方法:预先找到文档子集A(远小于初始文档集),包含了大多数的候选文档,并在A中计算得分最高的前K篇文档;以下方法都是基于这个规则计算的;1.索引去除技术(1)只考虑term的idf超过阈值的posting;因 阅读全文
posted @ 2012-01-07 11:05 xiazdong 阅读(373) 评论(0) 推荐(0) 编辑
摘要: 一、Ranked Retrieval在前面我们讨论的都是布尔查询,因此得出的结果要么匹配,要么不匹配,当匹配的结果很多时,就会发现我们需要对文档进行排序;二、参数化索引和域索引文档除了文本外还有元数据,比如创建时间、文档标题等,因此我们也可以对他进行限制;比如限制查询文档结果必须是2010年发表的;参数化索引(parametric index):某个字段取值存在一定限制,如取值范围的限制,日期,则为参数化索引;域索引:某个字段取值没有任何限制,比如标题,可以是任意文本;三、域加权评分一篇文档有域f1,f2,f3,而每个域都有不同的权重;每个域都有一个权值w1,w2,w3;权值的确定是通过机器学 阅读全文
posted @ 2012-01-07 11:03 xiazdong 阅读(264) 评论(0) 推荐(0) 编辑
摘要: 一、索引压缩概述使用压缩的目的:(1)因为我们想要把尽量多的数据放入内存,因此压缩能够达到这个目的;(2)从磁盘到内存的传输时间会缩短;压缩分类:(1)无损压缩:压缩后的数据能还原全部信息;(2)有损压缩:压缩后会丢失一些信息;如果有损压缩后丢失的信息用户并不关心,则有损压缩也是可以接受的;二、Heaps定律通过整个文档集词条数来估计词项数目;主要思想:随着文档集增加,词项数目会增加,并且没有上限;M=kT^b;三、Zipf定律通过词项在文档集中的词频排名来估计词项之间的词频比例;如果词项A出现次数排名第一,词项B出现次数排名第二,词项C出现次数排名第三,则A出现次数是B出现次数的两倍,则A出 阅读全文
posted @ 2012-01-06 15:12 xiazdong 阅读(327) 评论(0) 推荐(0) 编辑
摘要: 一、索引构建影响因素索引构建是指一篇文档转换成倒排索引的整个过程;(1)需要考虑的因素有内存大小、CPU时钟频率等;比如如果内存特别大,则能够把全部的文档都放入内存,并很快就能构建成倒排索引;(2)我们需要把尽可能多的内容放在内存;(3)需要考虑寻道时间,因此必须要把连续读取的数据放在连续的块中;将文档集变成term-->docID后,词项-文档ID对的数目是token的数目;二、BSBI我们这里考虑的是大文档集(不能把全部的文档都放入内存)。顾名思义,BSBI(Block Sorted-Based Indexing)是基于块排序的;操作流程如下:(1)把整个文档集分成大小相同的部分(每 阅读全文
posted @ 2012-01-06 15:07 xiazdong 阅读(435) 评论(0) 推荐(0) 编辑
摘要: 一、Hash Table和Search Tree实现dictionary的方法主要有哈希表和搜索树(二叉树、B树、AVL树);实现哈希表的dictionary的优点:(1)查询效率O(1);缺点:(1)哈希冲突。(2)不支持模糊查询。(3)哈希函数需要不断变化以适应需求。实现搜索树的dictionary的优点:(1)支持模糊查询。缺点:(1)查询效率相对较慢。(2)树要保持平衡。二、单个通配符查询1.尾通配符查询比如abc*,即通配符出现在尾部的查询就是尾通配符查询,这种查询使用搜索树可以完成,方法就是以a,b,c的顺序遍历树。如下图所示:如果要查询ab*,则(1)比较根节点:因为a在a-m中 阅读全文
posted @ 2012-01-06 15:06 xiazdong 阅读(466) 评论(0) 推荐(0) 编辑
摘要: 建立倒排记录表之前一、文件的编码一般一个文件都是以字节的方式存储的,如果想要让其可读,就必须要通过正确的编码方式转换成字符;就像Java IO一样,如果没有通过正确的编码方式打开一个文件,会出现乱码。因此在一系列处理步骤之前,知道文档的编码是重要的。一般在文档的meta data部分都会保存编码方式。二、索引粒度索引粒度的选取也是很重要的。因为如果把索引粒度选的太大,比如你想找Information Retrieval,如果索引粒度为整本书,则只要出现Information和Retrieval的书都会被选中,这非常不精确。三、Tokenization词条化:这个方法就像Java中StringT 阅读全文
posted @ 2012-01-06 14:52 xiazdong 阅读(593) 评论(0) 推荐(0) 编辑
摘要: 一、信息检索概念信息检索是从大量非结构化的文档集中找到用户需要的信息;当然信息检索远不止这些,比如从包中拿出信用卡并查看卡号,在计算机中查找文件等;非结构化:数据没有清晰的语义结构,计算机不容易处理;严格的非结构化数据是不存在的,比如文本虽然属于非结构化,但是文本也有固定的格式,如标题等;半结构化数据:处在结构化和非结构化之中的信息;分类:给定类别,将文档进行指派给特定的类别;一般都是有训练集和测试集;聚类:将给定的文档集进行自动聚团并分开,即预先不指定类别;grep是Unix中查询的命令;语料库(corpus)=Collection;ad-hoc检索:文档集相对静止,用户需求不断变化且是一次 阅读全文
posted @ 2012-01-06 14:50 xiazdong 阅读(315) 评论(0) 推荐(0) 编辑
摘要: 一、JExcel介绍JExcel是Java对Excel进行操作的包,可以实现创建一个Excel并写入或读取Excel的数据等操作;JExcel的主要类为:(1)Workbook:工作簿 (2)WritableWorkbook:可写工作簿(3)Sheet:表单;(4)WritableSheet:可写表单;(5)Label:单元格;二、Java写入Excel写入test.xls数据代码:package com.xiazdong; import java.io.File; import jxl.Sheet; import jxl.Workbook; import jxl.write.Label;.. 阅读全文
posted @ 2011-12-13 18:37 xiazdong 阅读(524) 评论(0) 推荐(0) 编辑
摘要: 一、开发前部署如果要在tomcat下开发web服务,则必须要下载jaxws.zip,下载地址:http://jax-ws.java.net/2.2.5/如果要创建一个web服务,则需要按照以下目录方式部署进行:上图中:lib放置jaxws.zip中的jar包;classes放置web服务的SIB和SEI(如果是style=document,则还需要wsgen工具生成类型);sun-jaxws.xml是web服务特定的配置文件;我们这里WEBROOT假定是ws文件夹;二、开发步骤1.编写SEIpackage org.xiazdong.ws; import javax.jws.*; @WebSer 阅读全文
posted @ 2011-12-11 12:33 xiazdong 阅读(357) 评论(0) 推荐(0) 编辑
上一页 1 ··· 17 18 19 20 21 22 23 24 25 ··· 30 下一页