2012 年 10月 18 日随笔档案 - 刺猬的温驯

【HtmlParser】HtmlParser使用

摘要：转载http://www.cnblogs.com/549294286/archive/2012/09/04/2670601.htmlHTMLParser的核心模块是org.htmlparser.Parser类，这个类实际完成了对于HTML页面的分析工作。这个类有下面几个构造函数：?publicParser ();publicParser (Lexer lexer, ParserFeedback fb);publicParser (URLConnection connection, ParserFeedback fb) throwsParserException;publicParser (St 阅读全文

posted @ 2012-10-18 18:06 刺猬的温驯阅读(5351) 评论(0) 推荐(0) 编辑

对于CSDN博客文章不能爬取的问题

摘要：转载http://blog.csdn.net/rongyongfeikai2/article/details/7826057看过Robin的一篇文章，就是反爬虫的。他提到了几种反爬虫的方法：1.手工拒绝，即爬虫的并发量相当高，那么按照80端口进行并发排序，然后手动的把爬虫的IP给禁掉。2.根据User-Agent拒绝，比如如果我们用Java程序进行爬取时，如果没有设header的话，User-Agent就是java，那么就禁掉User-Agent不为浏览器那样的请求。3.根据流量统计和日志分析来屏蔽爬虫，封掉流量特别大的爬虫。4.实时屏蔽，即如果一个IP在一段时间内请求特别频繁，就为爬虫，加入阅读全文

posted @ 2012-10-18 18:04 刺猬的温驯阅读(536) 评论(0) 推荐(0) 编辑

博客园文章爬取代码

摘要：转载http://blog.csdn.net/rongyongfeikai2/article/details/7798838最近，在看博客园上的文章。希望能够爬取指定的博客园的文章，并保存为WORD文档的形式。所以，趁着周末休息，花了半天时间把它给做了出来。完整代码下载地址：http://download.csdn.net/detail/rongyongfeikai2/4462085首先，我们爬取的文章，应该包括三个部分：标题、链接和正文。所以，我们用一个POJO来存储文章。[java]view plaincopypackagecom.BlogCrawler.Model;/**author:T 阅读全文

posted @ 2012-10-18 18:02 刺猬的温驯阅读(535) 评论(0) 推荐(0) 编辑

君子博学而日参省乎己则知明而行无过矣

公告

君子博学而日参省乎己 则知明而行无过矣

公告

君子博学而日参省乎己则知明而行无过矣