摘要: 二、 Splash的使用Splash是一个JavaSscript渲染服务,一个带有HTTP API的轻量级浏览器,同时对接了Python中的Twisted和QT库。使用它同样可以实现动态渲页面的抓取。Splash可以实现下面的这些功能:异步方式处理多个网页渲染过程;获取渲染后的页面的源代码或截图;通 阅读全文
posted @ 2019-04-02 17:28 远方那一抹云 阅读(2467) 评论(0) 推荐(1) 编辑
摘要: Ajax分析和抓取方式,是JavaScript动态渲染页面的一种情形,可使用 requests 或 urllib 爬取数据。JavaScript动态渲染的页面不是只有Ajax一种,比如中国青年网 http://news.youth.cn/gn/ 的分页部分由JavaScript生成的,不是原始的HTML代码,但是不包含Ajax请求。又比如ECharts的官方实例 http://echarts.ba... 阅读全文
posted @ 2019-04-02 12:59 远方那一抹云 阅读(3518) 评论(0) 推荐(0) 编辑
摘要: 分析今日头条的Ajax请求抓取网页数据,这次抓取今日头条的街拍美图,抓取完成后将每组图片分文件夹下载到本地并保存下来。1 抓取前的分析工作首先分析抓取逻辑,打开今日头条首页:http://www.toutiao.com/。右上角有一个搜索入口,由于要抓取街拍美图,所以输入“街拍”二字进行搜索。出现搜索结果页面。接着打开开发者工具,查看所有的网络请求。首先打开第一个网络请求,这个请求的URL就是当... 阅读全文
posted @ 2019-04-02 09:37 远方那一抹云 阅读(829) 评论(0) 推荐(0) 编辑