Java基础-爬虫实战之爬去校花网网站内容

          Java基础-爬虫实战之爬去校花网网站内容

                               作者:尹正杰

版权声明:原创作品,谢绝转载!否则将追究法律责任。

 

 

  爬虫这个实现点我压根就没有把它当做重点,也没打算做网络爬虫工程师,说起爬虫我更喜欢用Python实现!下面是Java爬虫的代码如下:

 1 /*
 2 @author :yinzhengjie
 3 Blog:http://www.cnblogs.com/yinzhengjie/tag/Scala%E8%BF%9B%E9%98%B6%E4%B9%8B%E8%B7%AF/
 4 EMAIL:y1053419035@qq.com
 5 */
 6 package cn.org.yinzhengjie.reptilian;
 7 
 8 import java.io.FileOutputStream;
 9 import java.io.IOException;
10 import java.io.InputStream;
11 import java.net.HttpURLConnection;
12 import java.net.URL;
13 
14 public class ReptilianDemo {
15     public static void main(String[] args) throws IOException {
16         //定义需要爬取的网站
17         URL url = new URL("http://www.xiaohuar.com/");
18         //建立连接
19         HttpURLConnection conn = (HttpURLConnection) url.openConnection();
20         //设置请求方式
21         conn.setRequestMethod("GET");
22         //获取服务器响应的状态码
23         int code = conn.getResponseCode();
24         //判断状态码是否为200,如果是说明访问成功,那么就开始下载页面
25         if(code == 200){
26             InputStream in = conn.getInputStream() ;
27             FileOutputStream out = new FileOutputStream("D:\\BigData\\JavaSE\\yinzhengjieData\\校花网.html",false) ;
28             byte[] buf = new byte[1024] ;
29             int len = 0 ;
30             while((len = in.read(buf)) != -1){
31 //                System.out.println(new String(buf ,0 ,len , "utf-8" ));
32                 out.write(buf , 0 , len);
33             }
34             in.close();
35             out.close();
36             System.out.println("下载完成!");
37         }
38     }
39 }
40 
41 /*
42 以上代码执行结果如下:
43 下载完成!
44  */

  查看爬去后的文件:

 

posted @ 2018-07-25 15:04  尹正杰  阅读(900)  评论(0编辑  收藏  举报