HttpClient的userAgent和refer问题
HttpClient本质是模拟浏览器去请求网址,获取请求response。
为了更真实的模拟浏览器,不被限制,需要设置一些请求header。
如果是爬虫的话,老虑的会更多些,爬取网站在HttpClient中设置Host,Referer,User-Agent,Connection,Cookie和爬取的频率和入口Url等
比如:
httpGet.setHeader("User-Agent", "Mozilla/5.0 (Windows NT 6.1; Win64; x64; rv:50.0) Gecko/20100101 Firefox/50.0");
httpget.setHeader("Referer", "http://www.google.com");
但如果不加处理的话,比如使用HttpClient 4.3.2版本的请求网址,response中UA会获取成Apache-HttpClient/4.3.2 (java 1.5)类似的结果,并且随着httpclient版本的不同需略有不同