随笔分类 - Scrapy实战篇
摘要:相对于知乎而言,简书的用户信息并没有那么详细,知乎提供了包括学习,工作等在内的一系列用户信息接口,但是简书就没有那么慷慨了。但是即便如此,我们也试图抓取一些基本信息,进行简单地细分析,至少可以看一下,哪些人哪一类文章最受用户欢迎,也可以给其他人一些参考不是。 我们整体的思路是这样的: 从某一个大V开
阅读全文
摘要:之前我们使用了selenium加Firefox作为下载中间件来实现爬取京东的商品信息。但是在大规模的爬取的时候,Firefox消耗资源比较多,因此我们希望换一种资源消耗更小的方法来爬取相关的信息。 下面就使用selenium加PhantomJS来实现之前的相同的逻辑。 这里需要修改的就是spider
阅读全文
摘要:在之前的一篇实战之中,我们已经爬取过京东商城的文胸数据,但是前面的那一篇其实是有一个缺陷的,不知道你看出来没有,下面就来详细的说明和解决这个缺陷。 我们在京东搜索页面输入关键字进行搜索的时候,页面的返回过程是这样的,它首先会直接返回一个静态的页面,页面的商品信息大致是30个,之所以说是大致,因为有几
阅读全文
摘要:创建scrapy项目 填充 item.py文件 在这里定义想要存储的字段信息 填充middlewares.py文件 中间件主要实现添加随机user agent的作用。 填充pipelines.py文件 将我们爬取到的结果存储在mongo数据库中 设置settings.py文件 下面的这些信息需要简单
阅读全文
摘要:从小到大,一直很喜欢听周杰伦唱的歌,可是相信很多人和我一样,并不能完全听明白歌词究竟是什么,今天我们就来研究一下周董最喜欢在歌词中用的词,这一小节的构思是这样的,我们爬取周杰伦的歌词信息,并且将其进行分词,来看一下什么样的词出现的频率最高,我们将这一整个过程分为两部分,前一部分是抓取,后一部分是分析
阅读全文
摘要:今天的主要内容是爬取豆瓣电影短评,看一下网友是怎么评价最近的电影的,方便我们以后的分析,以以下三部电影:二十二,战狼,三生三世十里桃花为例。 由于豆瓣短评网页比较简单,且不存在动态加载的内容,我们下面就直接上代码。有一点需要注意的是,豆瓣短评的前几页不需要登录就可以看,但是后面的内容是是需要我们登录
阅读全文
摘要:在上一小节中,我们已经提取到了房源的具体信息,这一节中,我们主要是对提取到的数据进行后续的处理,以及进行相关的设置。 数据处理 我们这里以把数据存储到mongo数据库为例。 编写pipelines.py文件 非常简单的几步,就实现了将数据保存到mongo数据库中,所以说mongo数据库还是非常好用的
阅读全文
摘要:今天,我们就以 "链家网" 南京地区为例,来学习爬取链家网的成交房源数据。 这里推荐使用火狐浏览器,并且安装firebug和firepath两款插件,你会发现,这两款插件会给我们后续的数据提取带来很大的方便。 首先创建一个名称为lianjia的项目。 需求分析 爬取数据的第一步当然是确定我们的需求,
阅读全文