摘要: 代理的使用: 首先,当我们正确爬取一个网页时,发现代码没有错误,可就是不能爬取网站。原因是有些网站设置了反爬取手段,就是知道你就是用python代码爬取该网站,设置了屏蔽。如果我们又想爬取该网站,便要我们使用代理服务了。 意思就是以浏览器的身份去访问被屏蔽的网站,这样就不会被认为是python爬取的 阅读全文
posted @ 2018-09-26 23:15 cmap 阅读(112) 评论(0) 推荐(0) 编辑
摘要: urlib库 urllib库是Python中一个最基本的网络请求库。可以模拟浏览器的行为,向指定的服务器发送一个请求,并可以保存服务器返回的数据。 urlopen函数: 在Python3的urllib库中,所有和网络请求相关的方法,被集到url1ib.request横块下面了,以先来看下orlope 阅读全文
posted @ 2018-09-26 21:50 cmap 阅读(136) 评论(0) 推荐(0) 编辑