最近一直在研究网络爬虫方面的知识,上一章中已经实现可以通过正则表达式抓取文本内容,这篇文章则实现抓取图片到本地资源。
核心思想还是正则表达式的书写,加上一小部分业务逻辑的处理。
如获取页面上图片的链接,处理比较麻烦,如下所示:
// 获取图片的链接 public List getPhoto(String content, String type) { List list = new ArrayList(); Pattern pattern = Pattern.compile("src=.http://.*." + type + ""); Matcher matcher = pattern.matcher(content); while (matcher.find()) { int start = matcher.start(); int end = matcher.end(); String href = content.substring(start, end); if (href.contains("src=")) { href = href.substring(5); } System.out.println("url:" + href); list.add(href); } System.out.println("size++:" + list.size()); return list; }
以下链接是资源的下载,代码里面有很详细的注释。
http://download.csdn.net/detail/a331251021/4581404
转载请加上http://www.cnblogs.com/zhengchubin/