君子博学而日参省乎己 则知明而行无过矣

博客园 首页 新随笔 联系 订阅 管理
上一页 1 ··· 35 36 37 38 39 40 41 42 43 ··· 106 下一页

2013年4月28日 #

摘要: 上文分析了Heritrix3.1.0系统对HttpClient组件的请求处理类的封装,本文接下来分析Heritrix3.1.0系统是怎样封装请求证书的Heritrix3.1.0系统的package org.archive.modules.credential里面的相关类都是与请求证书有关的先来了解一下CredentialStore类,该类用Map类型存储了应用的所有证书(Credential),外部只要调用这个类就可以获取证书该类重要方法如下KeyedProperties kp = new KeyedProperties(); public KeyedProperties getKeye... 阅读全文
posted @ 2013-04-28 16:50 刺猬的温驯 阅读(710) 评论(1) 推荐(0) 编辑

摘要: Heritrix 3.1.0 源码解析(二十三)中我们分析了Heritrix3.1.0系统是怎样扩展HttpClient组件的HttpConnection连接对象和相应的管理接口HttpConnectionManagerHttpConnection连接对象里面创建了SOCKET连接,但是还没用向输出流写数据,也没有从输入流读数据, 这里面HttpClient组件是怎么实现的,Heritrix3.1.0系统又是怎么扩展的呢?我们知道,当我们用HttpClient组件执行网页请求时,根据我们要请求的网页是GET请求还是POST请求我们创建相应的GetMethod类或PostMethod类(当然还有 阅读全文
posted @ 2013-04-28 08:20 刺猬的温驯 阅读(737) 评论(0) 推荐(0) 编辑

摘要: 上文中我们提到Recorder httpRecorder = Recorder.getHttpRecorder()对象封装了SOCKET连接的输出流和输入流,我们下面来看看Recorder类是怎么封装SOCKET的输入流和输出流的Recorder类的重要成员如下,主要包括封装的输入流和输出流以及有序的字符序列(缓存到本地文件) private RecordingInputStream ris = null; private RecordingOutputStream ros = null; /** * Backing file basename. * ... 阅读全文
posted @ 2013-04-28 08:19 刺猬的温驯 阅读(844) 评论(0) 推荐(0) 编辑

2013年4月27日 #

摘要: 上文分析了Heritrix3.1.0系统是怎么扩展HttpClient组件的ProtocolSocketFactory接口用于创建HTTP和HTTPS连接的SOCKET对象的接下来我们分析Heritrix3.1.0系统是怎么扩展HttpClient组件的HttpConnection对象的(创建SOCKET连接)先看一下HttpConnection类的成员变量// ----------------------------------------------------- Instance Variables /** My host. */ private String hos... 阅读全文
posted @ 2013-04-27 23:05 刺猬的温驯 阅读(944) 评论(0) 推荐(1) 编辑

摘要: 本文继续分析Heritrix3.1.0系统的源码,其实本人感觉接下来待分析的问题不是一两篇文章能够澄清,本人不能因为迫于表述而乱了问题本身的章法,接下来的分析的Heritrix3.1.0系统封装HttpClient组件可能要分几篇文章来解析我们知道,Heritrix3.1.0系统是通过封装HttpClient组件(里面封装了Socket)来与服务器通信的,Socket的输出流写入数据,输入流接收数据那么Heritrix3.1.0系统是怎样封装Httpclient(Heritrix3.1.0系统是采用的以前的Apache版本)组件的呢?我们可以看到,在FetchHTTP处理器里面有一段静态代码块 阅读全文
posted @ 2013-04-27 13:24 刺猬的温驯 阅读(1196) 评论(1) 推荐(0) 编辑

2013年4月23日 #

摘要: 上文中的抽象类Scoper关联到另外一个成员变量DecideRule scope,我不得不先中断处理器类的分析(后面再继续处理器分析),来插叙一下DecideRule scope对象,我说了,DecideRule scope成员是用来控制CrawlURI caUri对象的范围照例先来浏览一下DecideRule相关类图DecideRule类是一个抽象类,用来判断一个CrawlURI caUri对象是接受还是拒绝public DecideResult decisionFor(CrawlURI uri) { if (!getEnabled()) { return... 阅读全文
posted @ 2013-04-23 13:27 刺猬的温驯 阅读(969) 评论(0) 推荐(0) 编辑

摘要: 本文接着上文分析,CandidateChain candidateChain处理器链相关联的处理器CandidateChain处理器链有两个处理器org.archive.crawler.prefetch.CandidateScoperorg.archive.crawler.prefetch.FrontierPreparer要了解上面的处理器,我们先要了解另外一个抽象类Scoper,继承自抽象父类Processor,该类用来控制CrawlURI caUri对象的范围,里面有一个成员变量DecideRule scope protected DecideRule scope; public D... 阅读全文
posted @ 2013-04-23 11:46 刺猬的温驯 阅读(760) 评论(0) 推荐(0) 编辑

摘要: 本文继续分析与heritrix3.1.0系统的处理器相关的源码我们照例先来浏览一下class uml图所有的处理器都继承自抽象父类Processor,其中重要的方法如下/** * Processes the given URI. First checks {@link #ENABLED} and * {@link #DECIDE_RULES}. If ENABLED is false, then nothing happens. * If the DECIDE_RULES indicate REJECT, then the * {@link #innerR... 阅读全文
posted @ 2013-04-23 10:05 刺猬的温驯 阅读(775) 评论(0) 推荐(0) 编辑

摘要: 从本文开始,我们来分析与Heritrix3.1.0系统的处理器相关的源码,在Heritrix系统里面,待处理的CrawlURI cURI对象经过系统里面的处理器的重重处理最后才得以修成正果因为处理器很多,除了处理器本身的继承层次的逻辑外,在系统里面将功能相近的处理器归入同一个处理器链Heritrix3.1.0系统逻辑上抽象为两大处理器链(FetchChain和DispositionChain,CandidateChain逻辑上是属于DispositionChain)我们先来看一下处理器链与处理器的相关UML图上面是静态class图,处理器链ProcessorChain维持着一定数目的处理器pr 阅读全文
posted @ 2013-04-23 08:57 刺猬的温驯 阅读(921) 评论(0) 推荐(0) 编辑

摘要: 我们接下来分析与与BdbFrontier对象void finished(CrawlURI cURI)方法相关的方法/** * Note that the previously emitted CrawlURI has completed * its processing (for now). * * The CrawlURI may be scheduled to retry, if appropriate, * and other related URIs may become eligible for release * via the ne... 阅读全文
posted @ 2013-04-23 07:39 刺猬的温驯 阅读(737) 评论(1) 推荐(0) 编辑

上一页 1 ··· 35 36 37 38 39 40 41 42 43 ··· 106 下一页