2017 年 8月 21 日随笔档案 - 王先生是胖子

2017年8月21日

摘要：对HTML的解析：在解析复杂的HTML的页面时，需要避免一些问题，好让爬虫工作变得得心应手。 • 寻找“打印此页”的链接，或者看看网站有没有HTML样式更友好的移动版(把自己的请求头设置成处于移动设备的状态，然后接收网站移动版)。 • 寻找隐藏在JavaScript文件里的信息。要实现这一点，可阅读全文

posted @ 2017-08-21 16:50 王先生是胖子阅读(410) 评论(0) 推荐(0) 编辑

爬虫-----模块

摘要：爬虫所需要的模块： requests： requetes是使用Apache2 licensed的许可证，基于Python开发的http库。在Python内置模块的基础上进行的高度封装，从而使得Python进行网络请求时，变的好用，使用requests可以轻易得完成浏览器的任何操作。 1. get 阅读全文

posted @ 2017-08-21 10:10 王先生是胖子阅读(271) 评论(0) 推荐(0) 编辑

王先生是胖子

公告