Heritrix3.x主配置文件(crawler-beans.cxml)详解

<?xml version="1.0" encoding="UTF-8"?>
<!--
HERITRIX 3 抓取工作配置文件

   This is a relatively minimal configuration suitable for many crawls.
   这是一个相对来说最简化的配置，它可以适用于大部分抓取。
   Commented-out beans and properties are provided as an example; values
   shown in comments reflect the actual defaults which are in effect
   if not otherwise specified specification. (To change from the default
   behavior, uncomment AND alter the shown values.)

实际上，如果没有其它的更改，添加在注释中的 beans和它的属性以及属性的值已经作为默认值提供给Heritrix使用，你只需要取消

相关的注释并更改其中的值就可以改变默认的抓取行为

-->
<beans xmlns="http://www.springframework.org/schema/beans"
        xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
        xmlns:context="http://www.springframework.org/schema/context"
        xmlns:aop="http://www.springframework.org/schema/aop"
        xmlns:tx="http://www.springframework.org/schema/tx"
        xsi:schemaLocation="http://www.springframework.org/schema/beans http://www.springframework.org/schema/beans/spring-beans-3.0.xsd
           http://www.springframework.org/schema/aop http://www.springframework.org/schema/aop/spring-aop-3.0.xsd
           http://www.springframework.org/schema/tx http://www.springframework.org/schema/tx/spring-tx-3.0.xsd
           http://www.springframework.org/schema/context http://www.springframework.org/schema/context/spring-context-3.0.xsd">

<context:annotation-config/>

<!--
OVERRIDES
   Values elsewhere in the configuration may be replaced ('overridden')
   by a Properties map declared in a PropertiesOverrideConfigurer,
   using a dotted-bean-path to address individual bean properties.
   This allows us to collect a few of the most-often changed values
   in an easy-to-edit format here at the beginning of the model
   configuration.

-->

<bean id="simpleOverrides" class="org.springframework.beans.factory.config.PropertyOverrideConfigurer">
<property name="properties">
   <value>
# This Properties map is specified in the Java 'property list' text format
# http://java.sun.com/javase/6/docs/api/java/util/Properties.html#load%28java.io.Reader%29

metadata.operatorContactUrl=http://127.0.0.1/
metadata.jobName=basic
metadata.description=Basic crawl starting with useful defaults

##..more?..##
   </value>
</property>
</bean>


<bean id="longerOverrides" class="org.springframework.beans.factory.config.PropertyOverrideConfigurer">
<property name="properties">
   <props>
    <prop key="seeds.textSource.value">

# URLS HERE

#此处填写抓取的种子地址,一行一个。

http://example.example

    </prop>
   </props>
</property>
</bean>


<bean id="metadata" class="org.archive.modules.CrawlMetadata" autowire="byName">
       <property name="operatorContactUrl" value="[see override above]"/>
       <property name="jobName" value="[see override above]"/>
       <property name="description" value="[see override above]"/>







</bean>


<bean id="seeds" class="org.archive.modules.seeds.TextSeedModule">
     <property name="textSource">
      <bean class="org.archive.spring.ConfigString">
       <property name="value">
        <value>
# [see override above]
        </value>
       </property>
      </bean>
     </property>


</bean>




<bean id="acceptSurts" class="org.archive.modules.deciderules.surt.SurtPrefixedDecideRule">






</bean>


<bean id="scope" class="org.archive.modules.deciderules.DecideRuleSequence">

<property name="rules">
   <list>
    
    <bean class="org.archive.modules.deciderules.RejectDecideRule" />
    
    <ref bean="acceptSurts" />
    
    <bean class="org.archive.modules.deciderules.TooManyHopsDecideRule">
     
    </bean>
    
    <bean class="org.archive.modules.deciderules.TransclusionDecideRule">
     
     
    </bean>
    
    <bean class="org.archive.modules.deciderules.surt.SurtPrefixedDecideRule">
          <property name="decision" value="REJECT"/>
          <property name="seedsAsSurtPrefixes" value="false"/>
          <property name="surtsDumpFile" value="${launchId}/negative-surts.dump" />
     
    </bean>
    
    <bean class="org.archive.modules.deciderules.MatchesListRegexDecideRule">
          <property name="decision" value="REJECT"/>
     
     
    </bean>
    
    <bean class="org.archive.modules.deciderules.PathologicalPathDecideRule">
     
    </bean>
    
    <bean class="org.archive.modules.deciderules.TooManyPathSegmentsDecideRule">
     
    </bean>
    
    <bean class="org.archive.modules.deciderules.PrerequisiteAcceptDecideRule">
    </bean>
    
    <bean class="org.archive.modules.deciderules.SchemeNotInSetDecideRule">
    </bean>
   </list>
</property>
</bean>





<bean id="candidateScoper" class="org.archive.crawler.prefetch.CandidateScoper">
</bean>
<bean id="preparer" class="org.archive.crawler.prefetch.FrontierPreparer">






</bean>

<bean id="candidateProcessors" class="org.archive.modules.CandidateChain">
<property name="processors">
   <list>
    
    <ref bean="candidateScoper"/>
    
    <ref bean="preparer"/>
   </list>
</property>
</bean>



<bean id="preselector" class="org.archive.crawler.prefetch.Preselector">




</bean>
<bean id="preconditions" class="org.archive.crawler.prefetch.PreconditionEnforcer">



</bean>
<bean id="fetchDns" class="org.archive.modules.fetcher.FetchDNS">



</bean>

<bean id="fetchHttp" class="org.archive.modules.fetcher.FetchHTTP">






















</bean>
<bean id="extractorHttp" class="org.archive.modules.extractor.ExtractorHTTP">
</bean>
<bean id="extractorHtml" class="org.archive.modules.extractor.ExtractorHTML">









</bean>
<bean id="extractorCss" class="org.archive.modules.extractor.ExtractorCSS">
</bean>
<bean id="extractorJs" class="org.archive.modules.extractor.ExtractorJS">
</bean>
<bean id="extractorSwf" class="org.archive.modules.extractor.ExtractorSWF">
</bean>

<bean id="fetchProcessors" class="org.archive.modules.FetchChain">
<property name="processors">
   <list>
    
    <ref bean="preselector"/>
    
    <ref bean="preconditions"/>
    
    <ref bean="fetchDns"/>
    
    
    <ref bean="fetchHttp"/>
    
    <ref bean="extractorHttp"/>
    
    <ref bean="extractorHtml"/>
    
    <ref bean="extractorCss"/>
    
    <ref bean="extractorJs"/>
    
    <ref bean="extractorSwf"/>
   </list>
</property>
</bean>



<bean id="warcWriter" class="org.archive.modules.writer.MirrorWriterProcessor">














</bean>
<bean id="candidates" class="org.archive.crawler.postprocessor.CandidatesProcessor">


</bean>
<bean id="disposition" class="org.archive.crawler.postprocessor.DispositionProcessor">





</bean>


<bean id="dispositionProcessors" class="org.archive.modules.DispositionChain">
<property name="processors">
   <list>
    
    <ref bean="warcWriter"/>
    
    <ref bean="candidates"/>
    
    <ref bean="disposition"/>
    
   </list>
</property>
</bean>


<bean id="crawlController"
   class="org.archive.crawler.framework.CrawlController">






</bean>


<bean id="frontier"
   class="org.archive.crawler.frontier.BdbFrontier">














</bean>


<bean id="uriUniqFilter"
   class="org.archive.crawler.util.BdbUriUniqFilter">
</bean>




<bean id='forceRetire' class='org.archive.spring.Sheet'>
<property name='map'>
<map>
   <entry key='disposition.forceRetire' value='true'/>
</map>
</property>
</bean>


<bean id='smallBudget' class='org.archive.spring.Sheet'>
<property name='map'>
<map>
   <entry key='frontier.balanceReplenishAmount' value='20'/>
   <entry key='frontier.queueTotalBudget' value='100'/>
</map>
</property>
</bean>


<bean id='veryPolite' class='org.archive.spring.Sheet'>
<property name='map'>
<map>
   <entry key='disposition.delayFactor' value='10'/>
   <entry key='disposition.minDelayMs' value='10000'/>
   <entry key='disposition.maxDelayMs' value='1000000'/>
   <entry key='disposition.respectCrawlDelayUpToSeconds' value='3600'/>
</map>
</property>
</bean>


<bean id='highPrecedence' class='org.archive.spring.Sheet'>
<property name='map'>
<map>
   <entry key='frontier.balanceReplenishAmount' value='20'/>
   <entry key='frontier.queueTotalBudget' value='100'/>
</map>
</property>
</bean>








<bean id="actionDirectory" class="org.archive.crawler.framework.ActionDirectory">




</bean>


<bean id="crawlLimiter" class="org.archive.crawler.framework.CrawlLimitEnforcer">



</bean>


<bean id="checkpointService"
   class="org.archive.crawler.framework.CheckpointService">


</bean>
























<bean id="statisticsTracker"
   class="org.archive.crawler.reporting.StatisticsTracker" autowire="byName">






</bean>


<bean id="loggerModule"
   class="org.archive.crawler.reporting.CrawlerLoggerModule">








</bean>


<bean id="sheetOverlaysManager" autowire="byType"
   class="org.archive.crawler.spring.SheetOverlaysManager">
</bean>


<bean id="bdb"
class="org.archive.bdb.BdbModule">






</bean>


<bean id="cookieStorage"
   class="org.archive.modules.fetcher.BdbCookieStorage">



</bean>


<bean id="serverCache"
   class="org.archive.modules.net.BdbServerCache">

</bean>


<bean id="configPathConfigurer"
   class="org.archive.spring.ConfigPathConfigurer">
</bean>

</beans>

posted @ 2013-04-19 00:38 potato1895 阅读(1241) 评论(0) 编辑收藏举报

会员力量，点亮园子希望

刷新页面返回顶部

potato1895

Heritrix3.x主配置文件(crawler-beans.cxml)详解

公告