摘要: 因为要转到Java阵营,最近开始系统的看Java方面的书籍,正好自己需要大量的图片,所以就有了写一个爬虫,把自己设定的几个网站上所有的图片抓取下来,顺便练习Java。对爬虫程序一直都比较好奇,但没有过任何经验,在参考前辈的理念基础上尽量自己发挥。爬虫完成前都是边写边改,可能后期的设计和现在的不太一样... 阅读全文
posted @ 2013-08-15 17:44 MNight 阅读(289) 评论(0) 推荐(0) 编辑
摘要: 这个时候主要创建了4个类:Config.java、DownPage.java、GetURL.java、DownImage.java。在Text.java类中测试的时候由于是单独测试,没有任何问题,所有功能都可以正常使用,但是当几个功能同时运行的时候就出现了问题。由于有几个容器,DownPage.ja... 阅读全文
posted @ 2013-08-15 17:43 MNight 阅读(204) 评论(0) 推荐(0) 编辑
摘要: 提取出图片链接存入IMAGE_LIST中之后,下面就需要从中提取链接并下载。但是在下载的时候发现很多小图片都是logo或者表情,浪费磁盘空间,而且效率底下。所以设置了一个最小大小限制,小于这个大小的图片将会跳过。DownImage.java主要方法如下:public boolean saveImag... 阅读全文
posted @ 2013-08-15 16:59 MNight 阅读(168) 评论(0) 推荐(0) 编辑
摘要: 在提取链接1里面,我们提取了fromURL,即当前URL的路径,用来对相对路径进行处理。但是很快就发现了还有另外一种情况,即:href="/a/b/1.html"这种路径。在开头的地方有个斜杠,表面这个路径是相对于根目录的,所以必须要提取出当前URL的根目录才行,建立一个变量:rootURL。/**... 阅读全文
posted @ 2013-08-15 12:03 MNight 阅读(236) 评论(0) 推荐(0) 编辑