神神气气

2019年3月6日

摘要：一、创建ndarray 1、使用np.array()创建一维数组二维数组注意： numpy默认ndarray的所有元素的类型是相同的如果传进来的列表中包含不同的类型，则统一为同一类型，优先级：str>float>int 2、使用np的routines函数创建 1、 np.linspace(s 阅读全文

posted @ 2019-03-06 11:05 神神气气阅读(164) 评论(0) 推荐(0) 编辑

2019年3月5日

scrapy数据增量式爬取

摘要：爬取过的数据跳过1、通过url判断2、通过数据指纹判断创建爬虫项目：scrapy startproject xxx cd xxx 创建爬虫文件：scrapy genspider -t crawl spidername www.xxx.com 一、根据url判断爬虫文件在管道文件里进行存储二阅读全文

posted @ 2019-03-05 19:43 神神气气阅读(1612) 评论(0) 推荐(0) 编辑

2019年3月4日

scrapy提交关键字请求

摘要：提交查询关键字的请求这里重写父类的start_requests方法阅读全文

posted @ 2019-03-04 19:56 神神气气阅读(365) 评论(0) 推荐(0) 编辑

关于scrapy里的中间件和请求传参

摘要：一、中间件 scrapy中间件事介于下载器和scrapy引擎之间，主要是接收和发送响应和请求下面是关于中间件的方法的介绍 1 class MiddleproDownloaderMiddleware(object): 2 user_agent_list = [ 3 "Mozilla/5.0 (Win 阅读全文

posted @ 2019-03-04 19:42 神神气气阅读(911) 评论(0) 推荐(0) 编辑

2019年3月3日

利用scrapy框架爬取动态加载的数据

摘要：在爬取有些网站的是后，数据不一定全部是可视化界面的，当我们拖动滚动条时才会加载其他的数据，如果我们也想爬取这部分数据，就需要使用selenium模块，在scrapy里可以结合该模块修改返回对象一、编写爬虫文件代码注意，当创建完浏览器对象时，按照以前的写法，我们会直接的解析def parse 方法阅读全文

posted @ 2019-03-03 20:34 神神气气阅读(3863) 评论(0) 推荐(1) 编辑

2019年3月1日

利用scrapy爬取文件后并基于管道化的持久化存储

摘要：一、爬取数据在创建爬虫程序之后写入爬取数据的代码之后在items.py 文件里为item对象设置属性我们将爬取到的信息全部设置为item的属性二、写入pipelines.py内容我们自定义一个类，将item的数据写入到mysql里（在这之前将mysql和redis都启动）在相同的文件下创阅读全文

posted @ 2019-03-01 19:35 神神气气阅读(528) 评论(0) 推荐(0) 编辑

scrapy框架的简单使用

摘要：一、安装scrapy Scrapy是一个为了爬取网站数据，提取结构性数据而编写的应用框架安装： 1、 pip3 install wheel 2、下载twisted http://www.lfd.uci.edu/~gohlke/pythonlibs/#twisted 3、进入下载目录，执行 pip 阅读全文

posted @ 2019-03-01 19:19 神神气气阅读(138) 评论(0) 推荐(0) 编辑

2019年2月28日

模拟登录爬取数据、线程池的使用

摘要：云打码平台注册:普通用户和开发者用户登录：登录开发者用户创建一个软件：我的软件 -> 创建软件下载示例代码：开发者中心 -> 下载最新的DDL -> pythonHttp示例代码下载 1、模拟人人网登录代码示例 1 import http.client, mimetypes, urlli 阅读全文

posted @ 2019-02-28 20:09 神神气气阅读(299) 评论(0) 推荐(0) 编辑

2019年2月27日

利用etree对象进行爬取数据（xpath函数）

摘要：环境安装pip install lxml 解析原理：获取页面源码数据实例化一个etree的对象,并且将页面源码数据加载到该对象中调用该对象的xpath方法进行指定标签的定位注意:xpath函数必须结合着xpath表达式进行标签定位和内容捕获实例 1、例如爬取58二手房相关的数据代码： 2 阅读全文

posted @ 2019-02-27 20:35 神神气气阅读(1993) 评论(0) 推荐(0) 编辑

2019年2月26日

使用requests模块简单获取数据

摘要：一、使用ruquests的基本步骤：指定url 发起请求获取响应对象中的数据持久化存储二、爬取搜狗指定搜索三、Ajax请求通过抓包，获取请求携带的参数，例如获取分页显示的数据，当点击下一页时，发送ajax请求，对此时的url请求可以动，这里我们定义好请求参数param，动态的指定页码和阅读全文

posted @ 2019-02-26 21:19 神神气气阅读(1559) 评论(0) 推荐(0) 编辑

公告