java处理a标签里没有根网址和没有http开头的小程序
在爬取网站的时候有时候链接没有网站开头,下面两个程序可以很好的解决这种问题
orderString 是a 标签里的href
title 是网站 例如www.baidu.com
public static String addTitle(String orderString, String title) { String newString = orderString; if (orderString.indexOf(title.split("\\.")[1]) == -1) { newString = "http://" + title + "/" + (orderString.startsWith("/") ? orderString.substring(1) : orderString); } return newString; }
有时候抓取的网址没有http:
下面程序可以很好的解决这个问题
public static String addHttp(String orderString) { String newString = orderString; if (orderString.indexOf("http") == -1) { newString = "http:" + orderString; } return newString; }