摘要: 引入 numpy已经能够帮助我们处理数据,能够结合matplotlib解决我们数据分析的问题,那么pandas学习的目的在什么地方呢? numpy能够帮我们处理处理数值型数据,但是这还不够 很多时候,我们的数据除了数值之外,还有字符串,还有时间序列等 比如:我们通过爬虫获取到了存储在数据库中的数据 阅读全文
posted @ 2019-10-09 10:16 一知.半解 阅读(1235) 评论(0) 推荐(2) 编辑
摘要: 一. 引入 在通过scrapy框架进行某些网站数据爬取的时候,往往会碰到页面动态数据加载的情况发生,如果直接使用scrapy对其url发请求,是绝对获取不到那部分动态加载出来的数据值。但是通过观察我们会发现,通过浏览器进行url请求发送则会加载出对应的动态加载出的数据。那么如果我们想要在scrapy 阅读全文
posted @ 2019-10-07 11:32 一知.半解 阅读(251) 评论(0) 推荐(0) 编辑
摘要: 一、UA池和代理池 1、UA池 scrapy的下载中间件: 下载中间件(Downloader Middlewares) 位于scrapy引擎和下载器之间的一层组件。 作用: (1)引擎将请求传递给下载器过程中, 下载中间件可以对请求进行一系列处理。比如设置请求的 User-Agent,设置代理等 ( 阅读全文
posted @ 2019-10-07 11:16 一知.半解 阅读(332) 评论(0) 推荐(0) 编辑
摘要: 一、递归解析: 需求:将投诉_阳光热线问政平台中的投诉标题和状态网友以及时间爬取下来永久储存在数据库中 url:http://wz.sun0769.com/index.php/question/questionType?type=4&page= 需求分析:每一个页面对应的是一个url,scrapy框 阅读全文
posted @ 2019-10-07 10:54 一知.半解 阅读(332) 评论(0) 推荐(0) 编辑
摘要: 1、numpy读取数据 CSV:Comma-Separated Value,逗号分隔值文件 显示:表格状态 源文件:换行和逗号分隔行列的格式化文本,每一行的数据表示一条记录 由于csv便于展示,读取和写入,所以很多地方也是用csv的格式存储和传输中小型的数据,为了方便教学,我们会经常操作csv格式的 阅读全文
posted @ 2019-10-06 12:48 一知.半解 阅读(1309) 评论(0) 推荐(1) 编辑
摘要: Scrapy 入门教程 Scrapy 是用 Python 实现的一个为了爬取网站数据、提取结构性数据而编写的应用框架。 Scrapy 常应用在包括数据挖掘,信息处理或存储历史数据等一系列的程序中。 通常我们可以很简单的通过 Scrapy 框架实现一个爬虫,抓取指定网站的内容或图片。 Scrapy架构 阅读全文
posted @ 2019-10-04 19:04 一知.半解 阅读(231) 评论(0) 推荐(0) 编辑
摘要: 1 什么是Fiddler? (伪服务器) Fiddler是位于客户端和服务器端的HTTP代理,也是目前最常用的http抓包工具之一 。 它能够记录客户端和服务器之间的所有 HTTP请求,可以针对特定的HTTP请求,分析请求数据、设置断点、调试web应用、修改请求的数据,甚至可以修改服务器返回的数据, 阅读全文
posted @ 2019-10-04 16:13 一知.半解 阅读(343) 评论(0) 推荐(0) 编辑
摘要: selenium(自动化测试工具可用于在爬虫中解决js动态加载问题) 简介(本质就是模仿浏览器工作) Selenium 是什么?一句话,自动化测试工具。它支持各种浏览器,包括 Chrome,Safari,Firefox 等主流界面式浏览器,如果你在这些浏览器里面安装一个 Selenium 的插件,那 阅读全文
posted @ 2019-10-01 23:36 一知.半解 阅读(4043) 评论(0) 推荐(0) 编辑
摘要: 1. 前言(目的就是大大提升爬虫效率) 在执行IO密集型任务的时候,代码常常遇到IO操作而等待。例如我们在爬虫的时候,用到requests请求的时候,网页响应慢,一直等待着,那么爬虫的效率会大大的降低。 为了解决这类问题,本文就来探讨一下 Python 中异步协程来加速的方法,此种方法对于 IO 密 阅读全文
posted @ 2019-10-01 14:54 一知.半解 阅读(292) 评论(0) 推荐(0) 编辑
摘要: 什么是NumPy? NumPy是Python中科学计算的基本软件包。它是一个Python库,提供多维数组对象,各种派生对象(例如蒙版数组和矩阵) 以及各种例程,用于对数组进行快速操作,包括数学,逻辑,形状处理,排序,选择,I / O ,离散傅立叶变换,基本线性代数,基本统计运算,随机模拟等等。 Nu 阅读全文
posted @ 2019-09-29 15:09 一知.半解 阅读(823) 评论(0) 推荐(0) 编辑
摘要: 今日重点: 1、代理服务器的设置 2、模拟登陆过验证码(静态验证码) 3、cookie与session 4、线程池 1、代理服务器的设置 有时候使用同一个IP去爬取同一个网站,久了之后会被该网站服务器屏蔽。那么我们应该1怎么处理这个问题呢? 解决思路: 如果我们爬取网站,对方服务器显示的是别人的IP 阅读全文
posted @ 2019-09-29 11:57 一知.半解 阅读(130) 评论(0) 推荐(0) 编辑
摘要: 对比常用统计图 折线图: 特点:能够显示数据的变化趋势,反映事物的变化情况。(变化) 直方图: 特点:绘制连续性的数据,展示一组或者多组数据的分布情况(统计) 条形图: 特点:绘制离散的数据,能够一眼看出各个数据的大小,比较数据之间的差距(统计) 散点图: 特点:判断变量之间是否存在数量关联趋势,展 阅读全文
posted @ 2019-09-26 20:15 一知.半解 阅读(1407) 评论(0) 推荐(0) 编辑
摘要: 数据解析方式 解析的方法: 正则 xpath bs4 pyquery 正则 xpath bs4 pyquery 数据解析原理: - 标签的定位 - 提取标签中存储的文本数据或者标签属性中存储的数据 一、正则解析 引言 正则表达式(regular expression)就是用一个“字符串”来描述一个特 阅读全文
posted @ 2019-09-26 00:54 一知.半解 阅读(295) 评论(0) 推荐(0) 编辑
摘要: 初识数据分析 大数据是一个含义广泛的术语,是指数据集,如此庞大而复杂的,他们需要专门设计的硬件和软件工具进行处理。该数据集通常是万亿或EB的大小。这些数据集收集自各种各样的来源:传感器,气候信息,公开的信息,如杂志,报纸,文章。大数据产生的其他例子包括购买交易记录,网络日志,病历,军事监控,视频和图 阅读全文
posted @ 2019-09-25 14:45 一知.半解 阅读(480) 评论(0) 推荐(0) 编辑
摘要: requests模块基础 什么是requests模块 requests模块是python中原生基于网络模拟浏览器发送请求模块。功能强大,用法简洁高效。 为什么要是用requests模块 用以前的urllib模块需要手动处理url编码 手动处理post参数 处理cookie和代理操作繁琐 ...... 阅读全文
posted @ 2019-09-24 21:44 一知.半解 阅读(225) 评论(0) 推荐(0) 编辑
摘要: 什么是爬虫 通过写程序,模拟浏览器上网,让它获取数据的过程。 爬虫的分类 通用爬虫:就像浏览器一样获取整张网页 聚焦爬虫:只获取网页中的特定数据 增量式爬虫:爬取网站新更新的出来的数据 反爬机制:服务器采取相关策略阻止爬虫程序的爬取 反反爬机制:让爬虫破解反爬机制进行数据采集 robots协议:可以 阅读全文
posted @ 2019-09-24 17:38 一知.半解 阅读(149) 评论(0) 推荐(0) 编辑
摘要: 1、什么是Jupyter Notebook? 用自己的话理解,就是可以在网页上编写代码,直接在下面运行代码,它与pycharm有点不一样。不一样在于pycharm边解释边运行,顺序不能出错。而jupyter notebook不一样,有缓存,所以顺序反的也不会报错。 2. 组成部分 1、网页运用 网页 阅读全文
posted @ 2019-09-24 09:38 一知.半解 阅读(399) 评论(0) 推荐(0) 编辑
摘要: Django的下载与基本命令 1、下载Django: 1 pip3 install django 1 pip3 install django 1 pip3 install django 1 pip3 install django pip3 install django 2、创建一个django pr 阅读全文
posted @ 2019-09-08 10:46 一知.半解 阅读(134) 评论(0) 推荐(0) 编辑
摘要: Django教程简介 Django是一个使Web开发工作愉快并且高效的Web开发框架。使用Django,能够使你以最小的代价构建和维护高质量的Web应用。 Django 使你能够专注于 Web 应用上有 趣的关键性的东西。 为了达到这个目标,Django 提供了通用Web开发模式的高度抽象,提供了频 阅读全文
posted @ 2019-09-05 18:11 一知.半解 阅读(92) 评论(0) 推荐(0) 编辑
摘要: Socket socket通常也称作“套接字”,用于描述IP和端口,是一个通信链的句柄,应用程序通常通过“套接字”向网络发出请求或者应答网络请求。 import socket ip_port = ("127.0.0.1",8008) back_log = 5 buffer_size = 1024 t 阅读全文
posted @ 2019-07-26 15:10 一知.半解 阅读(82) 评论(0) 推荐(0) 编辑