新浪微博 Github
摘要: 一、Javadoc介绍Javadoc其实平常我们都会见到,JAVASE的API文档就是一个javadoc,很明显,Javadoc的目的是为了能够让外部客户理解我们的代码并使用我们对外的接口。记住:编写Javadoc的时候只需要对外的接口即可,不需要内部的接口也编写Javadoc注释;二、Javadoc注释一般我们的注释形式是:(1) //(2) /* */而Javadoc注释的形式是:/** * * @return */注意:必须以/**开头;三、Eclipse生成Javadoc文档1.编写Javadoc注释在Eclipse中,如果在某个方法前面输入/**后回车,则会自动生成Jav... 阅读全文
posted @ 2012-01-07 19:02 xiazdong 阅读(370) 评论(0) 推荐(0) 编辑
摘要: 一、Web采集介绍Web采集是从Web中采集大量网页的过程,并且要避免采集重复或无用的页面,采集完的网页需要构建索引,以扩大搜索引擎的索引规模;web采集通常是由多台机器并行采集;web采集的必须功能(1)Web采集器需要识别采集器陷阱(spider traps),比如当采集器访问到某个web服务器的网页时,此网页会生成无限多个网页被采集器采集,从而使得采集器不能跳出;(2)web服务器都有一个政策,比如服务器每5秒只能访问一次,因此采集器必须遵循这些规则;web采集的可选功能1.分布式:采集器有多个节点;2.即时更新:将原始抓取的网页进行更新;3.功能可扩展性:可以增加协议;二、Web采集流 阅读全文
posted @ 2012-01-07 11:10 xiazdong 阅读(206) 评论(0) 推荐(0) 编辑
摘要: 一、Web搜索介绍前面我们都是对传统文档集进行检索,而Web搜索和传统的搜索完全不同,因为Web的文档集数量是不能估计的,并且形式多样;一般Web都是通过B/S架构进行实现的,客户端是浏览器,服务器端是web服务器,通过HTTP进行传输数据;浏览器发出请求并接收服务器的应答,浏览器会自动屏蔽那些不能理解的部分;Web的文档集是海量的,但是如果这些信息不能被搜索到的话,则这些信息是无用的,因此Web搜索很重要。Web搜索的文档集不仅要相关,而且要注重权威;可能会遇到的问题是有些网页是由图片组成的,没有文本文字;静态页面:固定页面;动态页面:与数据库交互的页面;Web网页集可以转化成一张图,节点表 阅读全文
posted @ 2012-01-07 11:07 xiazdong 阅读(219) 评论(0) 推荐(0) 编辑
摘要: 一、打分排序的特性其实对于打分排序来说,我们最终只需要确定文档的相对顺序即可,因此我们可以简化打分的算法,只需要保持相对顺序不变即可;二、快速排序及打分方法我们前面的打分排序方法都需要计算查询及每篇文档的余弦相似度,然后需要取出打分最高的前K篇文档,这样做的复杂度是很高的;其实如果有一个算法能够近似求出前K篇文档但是复杂度少很多(不需要计算所有文档的得分),则我们通常会采用后一种算法;通用方法:预先找到文档子集A(远小于初始文档集),包含了大多数的候选文档,并在A中计算得分最高的前K篇文档;以下方法都是基于这个规则计算的;1.索引去除技术(1)只考虑term的idf超过阈值的posting;因 阅读全文
posted @ 2012-01-07 11:05 xiazdong 阅读(373) 评论(0) 推荐(0) 编辑
摘要: 一、Ranked Retrieval在前面我们讨论的都是布尔查询,因此得出的结果要么匹配,要么不匹配,当匹配的结果很多时,就会发现我们需要对文档进行排序;二、参数化索引和域索引文档除了文本外还有元数据,比如创建时间、文档标题等,因此我们也可以对他进行限制;比如限制查询文档结果必须是2010年发表的;参数化索引(parametric index):某个字段取值存在一定限制,如取值范围的限制,日期,则为参数化索引;域索引:某个字段取值没有任何限制,比如标题,可以是任意文本;三、域加权评分一篇文档有域f1,f2,f3,而每个域都有不同的权重;每个域都有一个权值w1,w2,w3;权值的确定是通过机器学 阅读全文
posted @ 2012-01-07 11:03 xiazdong 阅读(264) 评论(0) 推荐(0) 编辑