欢迎加群574337670

这段时间,应着老板的要求,从无到有,从无从下手,到一步步摸索,终于顺利完成了老板交代的任务,在这次任务当中,学会了很多新知识,在这里,我将总结一下我在此次任务中经常用到的一些工具类,我认为这些工具类,有必要保存一份,这样,不至于到了编码的时候花更多时间去网上找,虽然我这也算在网上找的,但花了我不少时间,为了下次不再浪费更多时间,在此我将把一些常用的工具类分享出来。

我这次做的主要任务是,从网页抓取数据,数据量很大,抓取几个省的天气数据,这当中涉及如何抓取数据,如何寻找可以被我们轻松解析的数据,抓到了数据如何解析,抓到了数据如何存储数据,如何设计表结构,如何将数据存储数据库后能够方便拿出来,等等,这当中涉及的知识点真的不少,说针真的,这是我第一从网页抓取数据,起初,老板给我布置了这个任务,我有点不知所措,不知如何下手,但是没有办法,我硬着头皮跟师兄请教,逼着自己学习,总算有效。

/**
     * 根据当前时间获取上一月的同一时间
     * @return 
     */
    public static String lastMonth(){
        Calendar now = Calendar.getInstance(TimeZone.getTimeZone("GMT+08:00"));
        now.setTime(new Date());
        int day = now.get(Calendar.DATE);
        if(1 == day){
            now.add(Calendar.MONTH, -1);//获取上一个月份
        }
        SimpleDateFormat format1 = new SimpleDateFormat("yyyy-MM-dd");
        return format1.format(now.getTime());
    }

/***
     * 根据时间查询是星期几,
     * 
     * @param ctime yyyy-MM-dd
     * @return
     */
    public static String praseWeeks(String ctime) {
        Date ctimeDate = DateUtils.parseDate(ctime, DateUtils.SHOW_DATE_FORMAT);
        String[] weekOfDays = { "星期日", "星期一", "星期二", "星期三", "星期四", "星期五", "星期六" };
        Calendar calendar = Calendar.getInstance();
        if (ctimeDate != null) {
            calendar.setTime(ctimeDate);
        }
        int w = calendar.get(Calendar.DAY_OF_WEEK) - 1;
        if (w < 0) {
            w = 0;
        }
        return weekOfDays[w];
    }
/***
     * 获取15年1月到17年3月的年月字符串集合
     */
    public static List<String> acceptXingQi() {
        List<String> list = new ArrayList<String>();
        String startdate = "2014-12-01";
        DateFormat format = new SimpleDateFormat("yyyy-MM-dd");
        Date d1;
        try {
            d1 = format.parse(startdate);
            Calendar c1 = Calendar.getInstance(TimeZone.getTimeZone("GMT+08:00"));
            c1.setTime(d1);
            for (int i = 0; i < 26; i++) {
                c1.add(Calendar.MONTH, 1);//当前的月份加1
                SimpleDateFormat format1 = new SimpleDateFormat("yyyy-MM-dd");
                list.add(format1.format(c1.getTime()));
            }
        } catch (java.text.ParseException e) {
            e.printStackTrace();
        }
        return list;
    }
/**
     * 获取月份的天数
     * 
     * @return
     */
    public static int getDayOfMonth(int year, int month) {
        Calendar cal = Calendar.getInstance();
        cal.set(Calendar.YEAR, year);
        cal.set(Calendar.MONTH, month - 1);
        return cal.getActualMaximum(Calendar.DATE);
    }
/**
     * 比较两个日期之间天数
     * 
     * @param fDate
     * @param oDate
     */
    public static int daysOfTwo(Date fDate, Date toDate) {
        return (int) ((toDate.getTime() - fDate.getTime()) / (1000 * 60 * 60 * 24));

    }

 我们再抓取网页数据的时候,经常会遇到以下这样一个问题.403拒绝访问,想必大家这个时候一定非常蛋疼,这访问不了,那数据又改如何抓取呢?这里,我来抛砖引玉,先介绍大家一种方法,解决这样的问题

其实这种问题解决起来也不难,这只不过网站管理员耍的一种小把戏。没什么难度。大家找到你抓取数据时网页的路劲,打开请求他Header,可以发现有这样一个键值对  Referer:http://www.weather.com.cn/weather40d/101310201.shtml ,

没错就是它,就是它,问题就很容易解决了,现在我把主要的抓取数据代码分享出来。

long timeMillis = System.currentTimeMillis();
        String url = "http://d1.weather.com.cn/calendar_new/2017/101280101_201703.html?_=1490061939993";//这是你的网页路径
        String reqUrl = "http://d1.weather.com.cn/calendar_new/2017/101280101_201704.html?_="+ timeMillis;//1.将后边的时间戳替换
        reqUrl = reqUrl.substring(0, reqUrl.indexOf("=", 60) + 1) + timeMillis;
        Pattern JSON_PATTERN = Pattern.compile("fc40\\s*=\\s*(\\[(\\S*\\s*\\S*)*\\])", Pattern.DOTALL);//2.正则表达式匹配字符串
        String rsp = "";
        Map<String, String> requests = Maps.newHashMap();
        requests.put("Referer","http://www.weather.com.cn/weather40d/101280101.shtml");//3.这一步是最重要的,有了它就能正常访问网页了
        try {
            rsp = WebUtils.doGet(reqUrl, null, null, requests);
        } catch (IOException e) {
            e.printStackTrace();
        }
        String jsonStr = null;
        Matcher m = JSON_PATTERN.matcher(rsp);
        while (m.find()) {
            jsonStr = m.group(1);
        }
WebUtils是我们封装的工具类。doGet方法就是请求网页数据,代码都是原生代码,出于保密,我就不贴出来了,此处最重要的一步就是第3步

 

获取到了数据,但是还是可能会发生你意想不到的问题,比如乱码,这个乱码比较特殊,不像一般的乱码,这种数据采用的是gzip压缩后的格式,所以处理起来就不能想普通乱码那样子去解决。你得解压之后才能去设置编码格式.具体的代码如下

/**
     * 乱码解决
     */
    @Test
    public void testLuanMa() {
        String htmlContent = "";
        java.io.InputStream inputStream = null;
        java.net.URL url = null;
        try {
            url = new java.net.URL("http://tianqi.2345.com/t/wea_history/js/201703/59289_201703.js");
        } catch (MalformedURLException e) {
            e.printStackTrace();
        }
        java.net.HttpURLConnection connection = null;
        try {
            connection = (java.net.HttpURLConnection) url.openConnection();
        } catch (IOException e2) {
            e2.printStackTrace();
        }
        try {
            connection.connect();
        } catch (IOException e1) {
            e1.printStackTrace();
        }
        try {
            inputStream = connection.getInputStream();
        } catch (IOException e) {
            e.printStackTrace();
        }
        byte bytes[] = new byte[1024 * 100];
        int index = 0;
        int count = 0;
        try {
            count = inputStream.read(bytes, index, 1024 * 100);
        } catch (IOException e1) {
            e1.printStackTrace();
        }
        while (count != -1) {
            index += count;
            try {
                count = inputStream.read(bytes, index, 1);
            } catch (IOException e) {
                e.printStackTrace();
            }
        }
        try {
            htmlContent = new String(bytes, "gb2312");
        } catch (UnsupportedEncodingException e) {
            e.printStackTrace();
        }
        System.out.println(htmlContent);

 

posted on 2017-04-03 15:08  人生无设限  阅读(431)  评论(0编辑  收藏  举报