cnkai

2017年8月20日

摘要：当我们取得了网页的response之后，最关键的就是如何从繁杂的网页中把我们需要的数据提取出来，python从网页中提取数据的包很多，常用的有下面的几个： BeautifulSoup 它基于HTML代码的结构来构造一个Python对象，对不良标记的处理也非常合理，但是速度上有所欠缺。 lxml 是阅读全文

posted @ 2017-08-20 09:57 cnkai 阅读(10311) 评论(0) 推荐(2) 编辑

2017年8月19日

Scrapy学习篇（五）之Spiders

摘要： Spiders Spider类定义了如何爬取某个网站。包括了爬取的动作(例如:是否跟进链接)以及如何从网页的内容中提取结构化数据(爬取item)。简而言之，Spider就是你定义爬取的动作及分析某个网页(或者是有些网页)的地方。对spider来说，爬取的循环类似如下: 1. 以初始的URL初始化R 阅读全文

posted @ 2017-08-19 21:55 cnkai 阅读(2688) 评论(0) 推荐(0) 编辑

Scrapy学习篇（四）之数据存储

摘要：上一篇中，我们简单的实现了一个博客首页信息的爬取，并在控制台输出，但是，爬下来的信息自然是需要保存下来的。这一篇主要是实现信息的存储，我们以将信息保存到文件和mongo数据库为例，学习数据的存储，依然是以博客首页信息为例。编写爬虫修改items.py文件来定义我们的item Item 是保存爬取阅读全文

posted @ 2017-08-19 17:55 cnkai 阅读(7609) 评论(2) 推荐(0) 编辑

Scrapy学习篇（三）之创建项目

摘要：创建项目创建项目是爬取内容的第一步，之前已经讲过，Scrapy通过命令来在当前目录下创建一个新的项目。下面我们创建一个爬取博客园（'https://www.cnblogs.com/'）文章信息的项目其中是你的项目的名字，可以自己定义。其目录结构如下 cnblog/ scrapy.cfg 阅读全文

posted @ 2017-08-19 15:52 cnkai 阅读(3979) 评论(0) 推荐(0) 编辑

Scrapy学习篇（二）之常用命令行工具

摘要：简介 Scrapy是通过Scrapy命令行工具进行控制的，包括创建新的项目，爬虫的启动，相关的设置，Scrapy提供了两种内置的命令，分别是全局命令和项目命令，顾名思义，全局命令就是在任意位置都可以执行的命令，而项目命令只有在你新创建了项目之后，在项目目录中才可以执行的命令。在这里，简单的介绍一些常阅读全文

posted @ 2017-08-19 13:26 cnkai 阅读(5333) 评论(0) 推荐(1) 编辑

Scrapy学习篇（一）之框架

摘要：概览在具体的学习scrapy之前，我们先对scrapy的架构做一个简单的了解，之后所有的内容都是基于此架构实现的，在初学阶段只需要简单的了解即可，之后的学习中，你会对此架构有更深的理解。下面是scrapy官网给出的最新的架构图示。基本组件引擎（Engine）引擎负责控制数据流在系统中所有组阅读全文

posted @ 2017-08-19 12:18 cnkai 阅读(3330) 评论(0) 推荐(0) 编辑

git实现github仓库和本地仓库同步

摘要：配置git 安装git以后，打开git bash，首先要对git进行配置，输入 git config global username "你的名字" git config global user.email "你的邮箱" 此处并不需要输入密码，只是相当提供你的身份标识，是全局配置，以后你的计算机上的阅读全文

posted @ 2017-08-19 09:58 cnkai 阅读(1454) 评论(0) 推荐(0) 编辑

公告