摘要: 对HTML的解析: 在解析复杂的HTML的页面时,需要避免一些问题,好让爬虫工作变得得心应手。 • 寻找“打印此页”的链接,或者看看网站有没有HTML样式更友好的移动版(把自己 的请求头设置成处于移动设备的状态,然后接收网站移动版)。 • 寻找隐藏在JavaScript文件里的信息。要实现这一点,可 阅读全文
posted @ 2017-08-21 16:50 王先生是胖子 阅读(410) 评论(0) 推荐(0) 编辑
摘要: 爬虫所需要的模块: requests: requetes是使用Apache2 licensed的许可证,基于Python开发的http库。 在Python内置模块的基础上进行的高度封装,从而使得Python进行网络请求时,变的好 用,使用requests可以轻易得完成浏览器的任何操作。 1. get 阅读全文
posted @ 2017-08-21 10:10 王先生是胖子 阅读(271) 评论(0) 推荐(0) 编辑