摘要: 一、创建ndarray 1、使用np.array()创建 一维数组 二维数组 注意: numpy默认ndarray的所有元素的类型是相同的 如果传进来的列表中包含不同的类型,则统一为同一类型,优先级:str>float>int 2、使用np的routines函数创建 1、 np.linspace(s 阅读全文
posted @ 2019-03-06 11:05 神神气气 阅读(164) 评论(0) 推荐(0) 编辑
摘要: 爬取过的数据跳过1、通过url判断2、通过数据指纹判断 创建爬虫项目 :scrapy startproject xxx cd xxx 创建爬虫文件:scrapy genspider -t crawl spidername www.xxx.com 一、根据url判断 爬虫文件 在管道文件里进行存储 二 阅读全文
posted @ 2019-03-05 19:43 神神气气 阅读(1612) 评论(0) 推荐(0) 编辑
摘要: 提交查询关键字的请求 这里重写父类的start_requests方法 阅读全文
posted @ 2019-03-04 19:56 神神气气 阅读(365) 评论(0) 推荐(0) 编辑
摘要: 一、中间件 scrapy中间件事介于下载器和scrapy引擎之间,主要是接收和发送响应和请求 下面是关于中间件的方法的介绍 1 class MiddleproDownloaderMiddleware(object): 2 user_agent_list = [ 3 "Mozilla/5.0 (Win 阅读全文
posted @ 2019-03-04 19:42 神神气气 阅读(911) 评论(0) 推荐(0) 编辑
摘要: 在爬取有些网站的是后,数据不一定全部是可视化界面的,当我们拖动滚动条时才会加载其他的数据,如果我们也想爬取这部分数据,就需要使用selenium模块,在scrapy里可以结合该模块修改返回对象 一、编写爬虫文件代码 注意,当创建完浏览器对象时,按照以前的写法,我们会直接的解析def parse 方法 阅读全文
posted @ 2019-03-03 20:34 神神气气 阅读(3863) 评论(0) 推荐(1) 编辑
摘要: 一、爬取数据 在创建爬虫程序之后写入爬取数据的代码 之后在items.py 文件里为item对象设置属性 我们将爬取到的信息全部设置为item的属性 二、写入pipelines.py内容 我们自定义一个类,将item的数据写入到mysql里(在这之前将mysql和redis都启动) 在相同的文件下创 阅读全文
posted @ 2019-03-01 19:35 神神气气 阅读(528) 评论(0) 推荐(0) 编辑
摘要: 一 、安装scrapy Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架 安装: 1、 pip3 install wheel 2、下载twisted http://www.lfd.uci.edu/~gohlke/pythonlibs/#twisted 3、进入下载目录,执行 pip 阅读全文
posted @ 2019-03-01 19:19 神神气气 阅读(138) 评论(0) 推荐(0) 编辑
摘要: 云打码平台 注册:普通用户和开发者用户 登录: 登录开发者用户 创建一个软件:我的软件 -> 创建软件 下载示例代码:开发者中心 -> 下载最新的DDL -> pythonHttp示例代码下载 1、模拟人人网登录 代码示例 1 import http.client, mimetypes, urlli 阅读全文
posted @ 2019-02-28 20:09 神神气气 阅读(299) 评论(0) 推荐(0) 编辑
摘要: 环境安装pip install lxml 解析原理: 获取页面源码数据 实例化一个etree的对象,并且将页面源码数据加载到该对象中 调用该对象的xpath方法进行指定标签的定位 注意:xpath函数必须结合着xpath表达式进行标签定位和内容捕获 实例 1、例如爬取58二手房相关的数据 代码: 2 阅读全文
posted @ 2019-02-27 20:35 神神气气 阅读(1993) 评论(0) 推荐(0) 编辑
摘要: 一、使用ruquests的基本步骤: 指定url 发起请求 获取响应对象中的数据 持久化存储 二、爬取搜狗指定搜索 三、Ajax请求 通过抓包,获取请求携带的参数, 例如获取分页显示的数据,当点击下一页时,发送ajax请求,对此时的url请求可以动,这里我们定义好请求参数param,动态的指定页码和 阅读全文
posted @ 2019-02-26 21:19 神神气气 阅读(1559) 评论(0) 推荐(0) 编辑