爬取网页内容java
下面介绍的这个方法只是作为抛砖引玉:根据网页URL就可以抓取其中的内容
/** * @title getHtmlResourceByUrl * @param url 网址 * @param encoding 编码 * @return String 返回类型 */ public static String getHtmlResourceByUrl(String url, String encoding) { StringBuffer buffer = new StringBuffer(); try { //建立网络连接 异常捕获 URL urlObj = new URL(url); //打开网络连接 URLConnection urlconn = urlObj.openConnection(); //IO流 InputStreamReader in = new InputStreamReader(urlconn.getInputStream(), encoding); //建立缓存 BufferedReader bfr = new BufferedReader(in); //临时文件 String line = null; //读取 while((line = bfr.readLine()) != null) { buffer.append(line); } } catch (MalformedURLException e) { e.printStackTrace(); } catch (IOException e) { e.printStackTrace(); } finally { } return buffer.toString(); } public static void main(String[] args) { String info = getHtmlResourceByUrl("http://www.qq.com", "gbk"); System.out.println(info); }
大家可以直接拿过去运行即可看到效果!