java处理a标签里没有根网址和没有http开头的小程序

 在爬取网站的时候有时候链接没有网站开头,下面两个程序可以很好的解决这种问题

orderString 是a 标签里的href

title 是网站  例如www.baidu.com

    public static String addTitle(String orderString, String title) {
        String newString = orderString;
        if (orderString.indexOf(title.split("\\.")[1]) == -1) {
            newString = "http://"
                    + title
                    + "/"
                    + (orderString.startsWith("/") ? orderString.substring(1)
                            : orderString);
        }
        return newString;
    }

有时候抓取的网址没有http:

下面程序可以很好的解决这个问题

    public static String addHttp(String orderString) {
        String newString = orderString;
        if (orderString.indexOf("http") == -1) {
            newString = "http:" + orderString;
        }
        return newString;

    }

 

 

 

posted @ 2013-01-29 09:49  杨桃  阅读(422)  评论(0编辑  收藏  举报