loveyakamoz

2011年11月26日

摘要：本博客属原创文章,欢迎转载！转载请务必注明出处:http://guoyunsky.javaeye.com/blog/630347欢迎加入Heritrix群(QQ)：109148319,10447185（已满）, Lucene/Solr群(QQ) :118972724 Heritrix的类的确很繁琐,往往继承了一层又一层,最多的继承好像有7层。下面就一个包一个包的说明每个类的作用，由于里面Heritrix组件分明，很多组件没用到的同时该组件的类我也没怎么接触,所以这里会忽略一部分，如果有知道的请补充，谢谢！如果对包还有不熟悉的,可以查看我前面的文章,这里也给出链接http://guoyunsk. 阅读全文

posted @ 2011-11-26 18:51 loveyakamoz 阅读(786) 评论(0) 推荐(0) 编辑

Heritrix源码分析(四) 各个类说明(二)

摘要：本博客属原创文章,欢迎转载！转载请务必注明出处:http://guoyunsky.javaeye.com/blog/632191欢迎加入Heritrix群(QQ)：109148319,10447185（已满）, Lucene/Solr群(QQ) :1189727249.org.archive.crawler.fetcher序号类说明1FetchDNS获取DNS数据,如IP2FetchFTP获取FTP数据3FetchHTTP获取HTTP数据4HeritrixHttpMethodRetryHandlerHTTP重试处理器,重新去连接HTTP10.org.archive.crawler.framew 阅读全文

posted @ 2011-11-26 18:51 loveyakamoz 阅读(604) 评论(0) 推荐(0) 编辑

Heritrix源码分析(三) 修改配置文件order.xml加快你的抓取速度

摘要：本博客属原创文章,欢迎转载！转载请务必注明出处:http://guoyunsky.javaeye.com/blog/629891欢迎加入Heritrix群(QQ)：109148319,10447185（已满）, Lucene/Solr群(QQ) :118972724 Heritrix的order.xml分了很多组件，可以灵活的配置各个抓取参数。但很多人都关心如何使得抓取更快更久更多，这里首先从Heritrix自身着手吧，修改order.xml的一些参数其实也可以达到这一目的. 下面就列出各个参数、说明和理想值序号配置名理想值说明 1 0 0 最大下载字节数,就是当H... 阅读全文

posted @ 2011-11-26 18:50 loveyakamoz 阅读(736) 评论(0) 推荐(0) 编辑

Heritrix源码分析(二) 配置文件order.xml介绍

摘要：本博客属原创文章,欢迎转载！转载请务必注明出处:http://guoyunsky.javaeye.com/blog/613412 欢迎加入Heritrix群(QQ)：10447185 , Lucene/Solr群(QQ) : 118972724 order.xml是整个Heritrix的核心,里面的每个一个配置都关系到Heritrix的运行情况,没读源码之前我只能从有限的渠道去获知这些配置的运用.读完之后才知道Heritrix竟然有如此灵活的运用,如可以控制抓取速度,可以优化电脑性能,可以在某一次的抓取上继续抓取.当然整个order.xml里我也没有全部掌握,只知道大部分配置的作用,希望大家指阅读全文

posted @ 2011-11-26 18:49 loveyakamoz 阅读(1848) 评论(0) 推荐(0) 编辑

网络爬虫Heritrix源码分析(一) 包介绍

摘要：欢迎加入Heritrix群(QQ)：10447185, Lucene/Solr群(QQ) :118972724 之前说过要分享下我的爬虫经验，但一直找不到突破口，现在才感觉写点东西真的很难，所以大家真的要感谢那些无私的前辈们，在网上留下的一篇篇可以指点迷津的文章。想了很久，还是先从Heritrix的包开始说起，然后再说类，最后讲下如何加工Heritrix，也就是将其打造成自己想要的爬虫，这里补充下，我用的版本是1.14.3.序号包名说明1org.apache.commons.httpclient封装了apache的httpclient用于Fetch网页内容2org.apache.commo.. 阅读全文

posted @ 2011-11-26 18:48 loveyakamoz 阅读(1325) 评论(0) 推荐(0) 编辑

2011年11月21日

NLP常用开源/免费工具

摘要：一些常见的NLP任务的开源/免费工具，*Computational Linguistics ToolboxCLT http://complingone.georgetown.edu/~linguist/compling.htmlGATE http://gate.ac.uk/Natural Language Toolkit(NLTK) http://nltk.orgMALLET http://mallet.cs.umass.edu/index.php/Main_Page*English StemmerSnowball http://snowball.tartarus.org/*English P 阅读全文

posted @ 2011-11-21 12:12 loveyakamoz 阅读(2178) 评论(0) 推荐(0) 编辑

2011年11月17日

Error: Read from storage 0 bytes, but requested 12 bytes 的解决方法

摘要：我的一个项目运行的时候总是先报错"Error: Read from storage 0 bytes, but requested 12 bytes",解决的方法是1、"File -> Invalidate Caches" rebuild 如果不行则进行 22、删除文件夹C:/Users/admin/.IntelliJIdea90/system/compiler中的文件阅读全文

posted @ 2011-11-17 22:42 loveyakamoz 阅读(351) 评论(0) 推荐(1) 编辑

2011年11月4日

Creating a simple Web application and deploying it to Tomcat

摘要： Creating a simple Web application and deploying it to TomcatCurrent revision (unreviewed)Contents[hide]1 Introduction2 Prerequisites2.1 Integrating Tomcat Server with IntelliJ IDEA3 Creating a New Project4 Exploring a Web Application5 Creating Elements of Your Application5.1 Creating a HelloWorld Cl 阅读全文

posted @ 2011-11-04 18:32 loveyakamoz 阅读(1189) 评论(0) 推荐(0) 编辑

2011年10月31日

Error running Tomcat 6: Address localhost:8080 is already in use

摘要：错误原因：8080端口被其他的应用占用！解决方案：第一步，命令提示符号，执行命令：netstat –anoActive ConnectionsProto Local Address Foreign Address State PIDTCP 0.0.0.0:8080 0.0.0.0:0 LISTENING 656TCP 0.0.0.0:8080 0.0.0.0:0 LISTENING 656可见，占用8080端口的进程的PID是656第二步，命令提示符号，执行命令：tasklist图像名 PID 会话名会话# 内存使用========================= ====== ===== 阅读全文

posted @ 2011-10-31 18:30 loveyakamoz 阅读(15387) 评论(0) 推荐(2) 编辑

2011年10月26日

IntelliJ IDEA 7.0整合Tomcat配置

摘要：单击向下的三角箭头按钮选择Edit Configurations。单击上图中的黄色加号(+)按钮单击上图的Local选项把Name后面的Uname改成Tomcat 5.5，单击Configure...按钮设置Tomcat路径(例如：C:\Tomcat 5.5)，设置生效后把Application Server选择一下。单击Deployment选项卡，并勾选Deploy Web Facet "Web"选项，勾选后单击Configure...按钮。单击Java EE Build Settings选项卡，并勾选Create web module exploded director 阅读全文

posted @ 2011-10-26 21:10 loveyakamoz 阅读(2805) 评论(1) 推荐(0) 编辑

本博客中的一些内容为网络转载，用于学习，如果涉及版权问题，请留言！谢谢

公告