君子博学而日参省乎己 则知明而行无过矣

博客园 首页 新随笔 联系 订阅 管理

2012年10月18日 #

摘要: 转载http://www.cnblogs.com/549294286/archive/2012/09/04/2670601.htmlHTMLParser的核心模块是org.htmlparser.Parser类,这个类实际完成了对于HTML页面的分析工作。这个类有下面几个构造函数:?publicParser ();publicParser (Lexer lexer, ParserFeedback fb);publicParser (URLConnection connection, ParserFeedback fb) throwsParserException;publicParser (St 阅读全文
posted @ 2012-10-18 18:06 刺猬的温驯 阅读(5340) 评论(0) 推荐(0) 编辑

摘要: 转载http://blog.csdn.net/rongyongfeikai2/article/details/7826057看过Robin的一篇文章,就是反爬虫的。他提到了几种反爬虫的方法:1.手工拒绝,即爬虫的并发量相当高,那么按照80端口进行并发排序,然后手动的把爬虫的IP给禁掉。2.根据User-Agent拒绝,比如如果我们用Java程序进行爬取时,如果没有设header的话,User-Agent就是java,那么就禁掉User-Agent不为浏览器那样的请求。3.根据流量统计和日志分析来屏蔽爬虫,封掉流量特别大的爬虫。4.实时屏蔽,即如果一个IP在一段时间内请求特别频繁,就为爬虫,加入 阅读全文
posted @ 2012-10-18 18:04 刺猬的温驯 阅读(531) 评论(0) 推荐(0) 编辑

摘要: 转载http://blog.csdn.net/rongyongfeikai2/article/details/7798838最近,在看博客园上的文章。希望能够爬取指定的博客园的文章,并保存为WORD文档的形式。所以,趁着周末休息,花了半天时间把它给做了出来。完整代码下载地址:http://download.csdn.net/detail/rongyongfeikai2/4462085首先,我们爬取的文章,应该包括三个部分:标题、链接和正文。所以,我们用一个POJO来存储文章。[java]view plaincopypackagecom.BlogCrawler.Model;/**author:T 阅读全文
posted @ 2012-10-18 18:02 刺猬的温驯 阅读(532) 评论(0) 推荐(0) 编辑