最近一直在研究网络爬虫方面的知识,上一章中已经实现可以通过正则表达式抓取文本内容,这篇文章则实现抓取图片到本地资源。

核心思想还是正则表达式的书写,加上一小部分业务逻辑的处理。

如获取页面上图片的链接,处理比较麻烦,如下所示:

	// 获取图片的链接
	public List getPhoto(String content, String type) {
		List list = new ArrayList();
		Pattern pattern = Pattern.compile("src=.http://.*." + type + "");
		Matcher matcher = pattern.matcher(content);
		while (matcher.find()) {
			int start = matcher.start();
			int end = matcher.end();
			String href = content.substring(start, end);
			if (href.contains("src=")) {
				href = href.substring(5);
			}

			System.out.println("url:" + href);
			list.add(href);
		}
		System.out.println("size++:" + list.size());
		return list;
	}

 

以下链接是资源的下载,代码里面有很详细的注释。

http://download.csdn.net/detail/a331251021/4581404

 

posted on 2012-09-19 23:21  天吧8  阅读(618)  评论(0编辑  收藏  举报