使用Python采集游记

本次要采集的是蚂蜂窝法国游记下面的全部3000篇游记http://www.mafengwo.cn/travel-scenic-spot/mafengwo/10171.html

首先从需要采集的网页来看,URL并不是有规律的,这时候需要得到一个URL目录就使用Fiddle抓包进行分析,

在切换页面的时候可以看到获取当前页码的所有游记(一页十条)的列表如下所示:

通过遍历data里面的page参数发送POST请求,就可以得到所有的目录页面,然后通过正则提取出待爬取的URL。

最后遍历待爬取的URL列表就可以获取游记的内容了。

posted @ 2017-10-25 01:25  Mirgo  阅读(586)  评论(1编辑  收藏  举报