摘要: 有的时候,我们无法爬取一些网页,会出现403错误,因为这些网页为了防止别人恶意采集其信息所以进行了一些反爬虫的设置。那么如果我们向爬取这些网页的信息,应该怎么办呢? 可以设置一些Headers信息,模拟成浏览器去访问这些网站,此时,就能够解决这个问题了... 阅读全文
posted @ 2018-07-15 21:04 龙~白 阅读(838) 评论(0) 推荐(0) 编辑
摘要: 本人以前用的都是python2.7,但看网上很多教程都是以python3为例的,所以便切换版本,导入urllib、lxml、beautifulsoup4等库。下面介绍下两个版本对urllib库的区别,方便以前使用python2.7的能很快适应pytho... 阅读全文
posted @ 2018-07-15 12:45 龙~白 阅读(327) 评论(1) 推荐(0) 编辑