爬取网页内容java

下面介绍的这个方法只是作为抛砖引玉:根据网页URL就可以抓取其中的内容

/**
	 * @title getHtmlResourceByUrl
	 * @param url          网址
	 * @param encoding     编码
	 * @return String 返回类型
	 */
	public static String getHtmlResourceByUrl(String url, String encoding) {
		StringBuffer buffer = new StringBuffer();
		try {
			//建立网络连接     异常捕获
			URL urlObj = new URL(url);
			//打开网络连接
			URLConnection urlconn = urlObj.openConnection();
			//IO流
			InputStreamReader in = new InputStreamReader(urlconn.getInputStream(), encoding);
			//建立缓存
			BufferedReader bfr = new BufferedReader(in);
			//临时文件
			String line = null;
			//读取
			while((line = bfr.readLine()) != null) {
				buffer.append(line);
			}
			
			
		} catch (MalformedURLException e) {
			e.printStackTrace();
		} catch (IOException e) {
			e.printStackTrace();
		} finally {
			
		}
		
		return buffer.toString();
	}
	
	
	
	public static void main(String[] args) {
		String info = getHtmlResourceByUrl("http://www.qq.com", "gbk");
		System.out.println(info);
	}

 大家可以直接拿过去运行即可看到效果!

posted @ 2017-07-28 09:34  懒得烧蛇吃  阅读(829)  评论(0编辑  收藏  举报