Scrapy实战篇 - 随笔分类 - cnkai

Scrapy实战篇（八）之简书用户信息全站抓取

摘要：相对于知乎而言，简书的用户信息并没有那么详细，知乎提供了包括学习，工作等在内的一系列用户信息接口，但是简书就没有那么慷慨了。但是即便如此，我们也试图抓取一些基本信息，进行简单地细分析，至少可以看一下，哪些人哪一类文章最受用户欢迎，也可以给其他人一些参考不是。我们整体的思路是这样的：从某一个大V开阅读全文

posted @ 2017-09-27 21:42 cnkai 阅读(1218) 评论(0) 推荐(1)

Scrapy实战篇（七）之Scrapy配合Selenium爬取京东商城信息（下）

摘要：之前我们使用了selenium加Firefox作为下载中间件来实现爬取京东的商品信息。但是在大规模的爬取的时候，Firefox消耗资源比较多，因此我们希望换一种资源消耗更小的方法来爬取相关的信息。下面就使用selenium加PhantomJS来实现之前的相同的逻辑。这里需要修改的就是spider 阅读全文

posted @ 2017-09-21 19:10 cnkai 阅读(2467) 评论(0) 推荐(1)

Scrapy实战篇（六）之Scrapy配合Selenium爬取京东信息（上）

摘要：在之前的一篇实战之中，我们已经爬取过京东商城的文胸数据，但是前面的那一篇其实是有一个缺陷的，不知道你看出来没有，下面就来详细的说明和解决这个缺陷。我们在京东搜索页面输入关键字进行搜索的时候，页面的返回过程是这样的，它首先会直接返回一个静态的页面，页面的商品信息大致是30个，之所以说是大致，因为有几阅读全文

posted @ 2017-09-21 18:39 cnkai 阅读(14505) 评论(0) 推荐(0)

Scrapy实战篇（五）爬取京东商城文胸信息

摘要：创建scrapy项目填充 item.py文件在这里定义想要存储的字段信息填充middlewares.py文件中间件主要实现添加随机user agent的作用。填充pipelines.py文件将我们爬取到的结果存储在mongo数据库中设置settings.py文件下面的这些信息需要简单阅读全文

posted @ 2017-09-21 17:29 cnkai 阅读(1400) 评论(1) 推荐(0)

Scrapy实战篇（四）之周杰伦到底唱了啥

摘要：从小到大，一直很喜欢听周杰伦唱的歌，可是相信很多人和我一样，并不能完全听明白歌词究竟是什么，今天我们就来研究一下周董最喜欢在歌词中用的词，这一小节的构思是这样的，我们爬取周杰伦的歌词信息，并且将其进行分词，来看一下什么样的词出现的频率最高，我们将这一整个过程分为两部分，前一部分是抓取，后一部分是分析阅读全文

posted @ 2017-08-24 16:18 cnkai 阅读(1160) 评论(0) 推荐(0)

Scrapy实战篇（三）之爬取豆瓣电影短评

摘要：今天的主要内容是爬取豆瓣电影短评，看一下网友是怎么评价最近的电影的，方便我们以后的分析，以以下三部电影：二十二，战狼，三生三世十里桃花为例。由于豆瓣短评网页比较简单，且不存在动态加载的内容，我们下面就直接上代码。有一点需要注意的是，豆瓣短评的前几页不需要登录就可以看，但是后面的内容是是需要我们登录阅读全文

posted @ 2017-08-23 15:17 cnkai 阅读(4539) 评论(7) 推荐(1)

Scrapy实战篇（二）之爬取链家网成交房源数据（下）

摘要：在上一小节中，我们已经提取到了房源的具体信息，这一节中，我们主要是对提取到的数据进行后续的处理，以及进行相关的设置。数据处理我们这里以把数据存储到mongo数据库为例。编写pipelines.py文件非常简单的几步，就实现了将数据保存到mongo数据库中，所以说mongo数据库还是非常好用的阅读全文

posted @ 2017-08-21 16:51 cnkai 阅读(4740) 评论(1) 推荐(0)

Scrapy实战篇（一）之爬取链家网成交房源数据（上）

摘要：今天，我们就以 "链家网" 南京地区为例，来学习爬取链家网的成交房源数据。这里推荐使用火狐浏览器，并且安装firebug和firepath两款插件，你会发现，这两款插件会给我们后续的数据提取带来很大的方便。首先创建一个名称为lianjia的项目。需求分析爬取数据的第一步当然是确定我们的需求，阅读全文

posted @ 2017-08-21 16:10 cnkai 阅读(5746) 评论(1) 推荐(0)

cnkai

随笔分类 - Scrapy实战篇

公告