摘要: 一、简单动态页面爬取 我们之前进行的页面爬取工作都是基于静态的页面。但是现在的很多页面都采用了动态页面,这些动态页面又有百分之七十是由javascript写的,因此我们了解如何从javascript页面爬取信息就显得非常的重要。 先认识具体情况之前,我们需要先了解什么是ajax,ajax它的英文全称 阅读全文
posted @ 2017-10-30 21:23 whatyouknow123 阅读(3738) 评论(0) 推荐(0) 编辑
摘要: 以下内容是《用Python写网络爬虫》的读书笔记: 一、串行爬虫 我们之前使用的爬虫方式,都是一个页面接着一个页面下载,也就是使用串行的方式进行爬虫。但是显然这种方式下载的速度是非常的慢的,特别是当我们需要下载大量页面的时候这个问题就会变得更加的突出。所以本节内,就学习如何进行多线程和多进程的并行爬 阅读全文
posted @ 2017-10-30 19:39 whatyouknow123 阅读(774) 评论(0) 推荐(0) 编辑