Java基础-爬虫实战之爬去校花网网站内容
Java基础-爬虫实战之爬去校花网网站内容
作者:尹正杰
版权声明:原创作品,谢绝转载!否则将追究法律责任。
爬虫这个实现点我压根就没有把它当做重点,也没打算做网络爬虫工程师,说起爬虫我更喜欢用Python实现!下面是Java爬虫的代码如下:
1 /* 2 @author :yinzhengjie 3 Blog:http://www.cnblogs.com/yinzhengjie/tag/Scala%E8%BF%9B%E9%98%B6%E4%B9%8B%E8%B7%AF/ 4 EMAIL:y1053419035@qq.com 5 */ 6 package cn.org.yinzhengjie.reptilian; 7 8 import java.io.FileOutputStream; 9 import java.io.IOException; 10 import java.io.InputStream; 11 import java.net.HttpURLConnection; 12 import java.net.URL; 13 14 public class ReptilianDemo { 15 public static void main(String[] args) throws IOException { 16 //定义需要爬取的网站 17 URL url = new URL("http://www.xiaohuar.com/"); 18 //建立连接 19 HttpURLConnection conn = (HttpURLConnection) url.openConnection(); 20 //设置请求方式 21 conn.setRequestMethod("GET"); 22 //获取服务器响应的状态码 23 int code = conn.getResponseCode(); 24 //判断状态码是否为200,如果是说明访问成功,那么就开始下载页面 25 if(code == 200){ 26 InputStream in = conn.getInputStream() ; 27 FileOutputStream out = new FileOutputStream("D:\\BigData\\JavaSE\\yinzhengjieData\\校花网.html",false) ; 28 byte[] buf = new byte[1024] ; 29 int len = 0 ; 30 while((len = in.read(buf)) != -1){ 31 // System.out.println(new String(buf ,0 ,len , "utf-8" )); 32 out.write(buf , 0 , len); 33 } 34 in.close(); 35 out.close(); 36 System.out.println("下载完成!"); 37 } 38 } 39 } 40 41 /* 42 以上代码执行结果如下: 43 下载完成! 44 */
查看爬去后的文件:
本文来自博客园,作者:尹正杰,转载请注明原文链接:https://www.cnblogs.com/yinzhengjie/p/9366013.html,个人微信: "JasonYin2020"(添加时请备注来源及意图备注,有偿付费)
当你的才华还撑不起你的野心的时候,你就应该静下心来学习。当你的能力还驾驭不了你的目标的时候,你就应该沉下心来历练。问问自己,想要怎样的人生。