HttpClient的userAgent和refer问题

       HttpClient本质是模拟浏览器去请求网址,获取请求response。

          为了更真实的模拟浏览器,不被限制,需要设置一些请求header。

         如果是爬虫的话,老虑的会更多些,爬取网站在HttpClient中设置Host,Referer,User-Agent,Connection,Cookie和爬取的频率和入口Url等

比如:

            httpGet.setHeader("User-Agent", "Mozilla/5.0 (Windows NT 6.1; Win64; x64; rv:50.0) Gecko/20100101 Firefox/50.0");
            httpget.setHeader("Referer", "http://www.google.com");

        但如果不加处理的话,比如使用HttpClient 4.3.2版本的请求网址,response中UA会获取成Apache-HttpClient/4.3.2 (java 1.5)类似的结果,并且随着httpclient版本的不同需略有不同

posted @ 2019-08-08 17:59  xuzhujack  阅读(3422)  评论(0编辑  收藏  举报
;