HttpClient的userAgent和refer问题

HttpClient本质是模拟浏览器去请求网址，获取请求response。

为了更真实的模拟浏览器，不被限制，需要设置一些请求header。

如果是爬虫的话，老虑的会更多些，爬取网站在HttpClient中设置Host,Referer,User-Agent,Connection,Cookie和爬取的频率和入口Url等

比如：

httpGet.setHeader("User-Agent", "Mozilla/5.0 (Windows NT 6.1; Win64; x64; rv:50.0) Gecko/20100101 Firefox/50.0");
httpget.setHeader("Referer", "http://www.google.com");

但如果不加处理的话，比如使用HttpClient 4.3.2版本的请求网址，response中UA会获取成Apache-HttpClient/4.3.2 (java 1.5)类似的结果，并且随着httpclient版本的不同需略有不同

posted @ 2019-08-08 17:59 xuzhujack 阅读(3592) 评论(0) 编辑收藏举报

刷新页面返回顶部

xuzhujack

Walk the road you want to walk and do what you want to do , keep moving ahead and ... ...

HttpClient的userAgent和refer问题

公告