上一页 1 ··· 6 7 8 9 10
摘要: 当我们取得了网页的response之后,最关键的就是如何从繁杂的网页中把我们需要的数据提取出来,python从网页中提取数据的包很多,常用的有下面的几个: BeautifulSoup 它基于HTML代码的结构来构造一个Python对象, 对不良标记的处理也非常合理,但是速度上有所欠缺。 lxml 是 阅读全文
posted @ 2017-08-20 09:57 cnkai 阅读(10311) 评论(0) 推荐(2) 编辑
摘要: Spiders Spider类定义了如何爬取某个网站。包括了爬取的动作(例如:是否跟进链接)以及如何从网页的内容中提取结构化数据(爬取item)。简而言之,Spider就是你定义爬取的动作及分析某个网页(或者是有些网页)的地方。 对spider来说,爬取的循环类似如下: 1. 以初始的URL初始化R 阅读全文
posted @ 2017-08-19 21:55 cnkai 阅读(2688) 评论(0) 推荐(0) 编辑
摘要: 上一篇中,我们简单的实现了一个博客首页信息的爬取,并在控制台输出,但是,爬下来的信息自然是需要保存下来的。这一篇主要是实现信息的存储,我们以将信息保存到文件和mongo数据库为例,学习数据的存储,依然是以博客首页信息为例。 编写爬虫 修改items.py文件来定义我们的item Item 是保存爬取 阅读全文
posted @ 2017-08-19 17:55 cnkai 阅读(7609) 评论(2) 推荐(0) 编辑
摘要: 创建项目 创建项目是爬取内容的第一步,之前已经讲过,Scrapy通过 命令来在当前目录下创建一个新的项目。 下面我们创建一个爬取博客园('https://www.cnblogs.com/')文章信息的项目 其中 是你的项目的名字,可以自己定义。 其目录结构如下 cnblog/ scrapy.cfg 阅读全文
posted @ 2017-08-19 15:52 cnkai 阅读(3979) 评论(0) 推荐(0) 编辑
摘要: 简介 Scrapy是通过Scrapy命令行工具进行控制的,包括创建新的项目,爬虫的启动,相关的设置,Scrapy提供了两种内置的命令,分别是全局命令和项目命令,顾名思义,全局命令就是在任意位置都可以执行的命令,而项目命令只有在你新创建了项目之后,在项目目录中才可以执行的命令。在这里,简单的介绍一些常 阅读全文
posted @ 2017-08-19 13:26 cnkai 阅读(5333) 评论(0) 推荐(1) 编辑
摘要: 概览 在具体的学习scrapy之前,我们先对scrapy的架构做一个简单的了解,之后所有的内容都是基于此架构实现的,在初学阶段只需要简单的了解即可,之后的学习中,你会对此架构有更深的理解。 下面是scrapy官网给出的最新的架构图示。 基本组件 引擎(Engine) 引擎负责控制数据流在系统中所有组 阅读全文
posted @ 2017-08-19 12:18 cnkai 阅读(3330) 评论(0) 推荐(0) 编辑
摘要: 配置git 安装git以后,打开git bash,首先要对git进行配置,输入 git config global username "你的名字" git config global user.email "你的邮箱" 此处并不需要输入密码,只是相当提供你的身份标识, 是全局配置,以后你的计算机上的 阅读全文
posted @ 2017-08-19 09:58 cnkai 阅读(1454) 评论(0) 推荐(0) 编辑
上一页 1 ··· 6 7 8 9 10