09 2019 档案
摘要:import tushare as ts import pandas as pd from pandas import DataFrame,Series import tushare as ts import pandas as pd from pandas import DataFrame,Ser
阅读全文
摘要:处理丢失数据 处理丢失数据 处理丢失数据 处理丢失数据 有两种丢失数据: None np.nan(NaN) 有两种丢失数据: None np.nan(NaN) 有两种丢失数据: None np.nan(NaN) 有两种丢失数据: None np.nan(NaN) 1. None None是Pytho
阅读全文
摘要:Pandas的数据结构 Pandas的数据结构 Pandas的数据结构 Pandas的数据结构 导入pandas:三剑客 导入pandas:三剑客 导入pandas:三剑客 导入pandas:三剑客 In [3]: import pandas as pd from pandas import Ser
阅读全文
摘要:数据分析:是把隐藏在一些看似杂乱无章的数据背后的信息提炼出来,总结出所研究对象的内在规律 数据分析:是把隐藏在一些看似杂乱无章的数据背后的信息提炼出来,总结出所研究对象的内在规律 数据分析:是把隐藏在一些看似杂乱无章的数据背后的信息提炼出来,总结出所研究对象的内在规律 数据分析:是把隐藏在一些看似杂
阅读全文
摘要:增量式爬虫 引言: 当我们在浏览相关网页的时候会发现,某些网站定时会在原有网页数据的基础上更新一批数据,例如电影网站会实时更新一批最近热门的电影。小说网站会根据作者创作的进度实时更新最新的章节数据等等。那么,类似的情景,当我们在爬虫的过程中遇到时,我们是不是需要定时更新程序以便能爬取到网站中最近更新
阅读全文
摘要:redis分布式部署 - 概念:可以将一组程序执行在多台机器上(分布式机群),使其进行数据的分布爬取。 1.scrapy框架是否可以自己实现分布式? 其一:因为多台机器上部署的scrapy会各自拥有各自的调度器,这样就使得多台机器无法分配start_urls列表中的url。(多台机器无法共享同一个调
阅读全文
摘要:- CrawlSpider - 作用:用于进行全站数据爬取 - CrawlSpider就是Spider的一个子类 - 如何新建一个基于CrawlSpider的爬虫文件 - scrapy genspider -t crawl xxx www.xxx.com - 例:choutiPro - LinkEx
阅读全文
摘要:引入 在通过scrapy框架进行某些网站数据爬取的时候,往往会碰到页面动态数据加载的情况发生,如果直接使用scrapy对其url发请求,是绝对获取不到那部分动态加载出来的数据值。但是通过观察我们会发现,通过浏览器进行url请求发送则会加载出对应的动态加载出的数据。那么如果我们想要在scrapy也获取
阅读全文
摘要:1.五大核心组件工作流程: 引擎(Scrapy)用来处理整个系统的数据流处理, 触发事务(事务:函数调用、方法触发、类实例化)【框架核心】 调度器(Scheduler)用来接受引擎发过来的请求, 【队列】压入队列中, 并在引擎再次请求的时候返回. 可以想像成一个URL(抓取网页的网址或者说是链接)的
阅读全文
摘要:- 全站数据爬取 1.手动请求发送: - yield scrapy.Request(url,callback)【callback】回调一个函数用于数据解析 - 全站数据爬取 1.手动请求发送: - yield scrapy.Request(url,callback)【callback】回调一个函数用
阅读全文
摘要:1.基于终端指令的持久化存储 保证爬虫文件的parse方法中有可迭代类型对象(通常为列表or字典)的返回,该返回值可以通过终端指令的形式写入指定格式的文件中进行持久化操作。 执行输出指定格式进行存储:将爬取到的数据写入不同格式的文件中进行存储 scrapy crawl 爬虫名称 -o xxx.jso
阅读全文
摘要:一.什么是Scrapy? Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架,非常出名,非常强悍。所谓的框架就是一个已经被集成了各种功能(高性能异步下载,队列,分布式,解析,持久化等)的具有很强通用性的项目模板。对于框架的学习,重点是要学习其框架的特性、各个功能的用法即可。 - sc
阅读全文
摘要:Pyppeteer pyppeteer模块的基本使用 引言 Selenium 在被使用的时候有个麻烦事,就是环境的相关配置,得安装好相关浏览器,比如 Chrome、Firefox 等等,然后还要到官方网站去下载对应的驱动,最重要的还需要安装对应的 Python Selenium 库,确实是不是很方便
阅读全文
摘要:- 在python3.4之后新增了asyncio模块,可以帮我们检测IO(只能是网络IO【HTTP连接就是网络IO操作】),实现应用程序级别的切换(异步IO)。注意:asyncio只能发tcp级别的请求,不能发http协议。 - 异步IO:所谓「异步 IO」,就是你发起一个 网络IO 操作,却不用等
阅读全文
摘要:本实例主要进行线程池创建,多线程获取、存储视频文件 梨视频:利用线程池进行视频爬取
阅读全文
摘要:简介 selenium最初是一个自动化测试工具,而爬虫中使用它主要是为了解决requests无法直接执行JavaScript代码的问题 selenium本质是通过驱动浏览器,完全模拟浏览器的操作,比如跳转、输入、点击、下拉等,来拿到网页渲染之后的结果,可支持多种浏览器 环境安装 下载安装seleni
阅读全文
摘要:云打码平台【处理各类验证码的平台】 注册:普通用户和开发者用户 登录: 登录普通用户(查看余额) 登录开发者用户: 创建一个软件:我的软件->创建软件 下载示例代码:开发者中心->下载最新的DLL->pythonHttp示例代码下载 云打码平台【处理各类验证码的平台】 注册:普通用户和开发者用户 登
阅读全文
摘要:5种反爬机制 robots.txt:反爬机制,防君子不防小人 UA检测:UA伪装 数据加密 图片懒加载 代理ip requests模块爬取流程: 指定url 发起请求 获取页面数据 数据解析 持久化存储 bs4解析: 环境安装:bs4、lxml解析器 实例化bs对象,将页面源码数据加载到该对象中 定
阅读全文
摘要:- re.I # 忽略大小写- re.M # 多行匹配,将正则作用到源数据的每一行- re.S # 单行匹配,将正则作用到整个源数据,输出一个整体字符串(包括换行符也打印)
阅读全文
摘要:使用流程: -导包:from bs4 import BeautifulSoup - 使用方式:可以将一个html文档,转化为BeautifulSoup对象,然后通过对象的方法或属性去查找指定的节点内容。 (1)转化本地文件: - soup = BeautifulSoup(open(‘本地文件’),‘
阅读全文
摘要:- 基于如下5点展开requests模块的学习 什么是requests模块 requests模块是python中原生的基于网络请求的模块,其主要作用是用来模拟浏览器发起请求。功能强大,用法简洁高效。在爬虫领域中占据着半壁江山的地位。 为什么要使用requests模块 因为在使用urllib模块的时候
阅读全文
摘要:一.HTTP协议 1.官方概念: HTTP协议是Hyper Text Transfer Protocol(超文本传输协议)的缩写,是用于从万维网(WWW:World Wide Web )服务器传输超文本到本地浏览器的传送协议。(虽然童鞋们将这条概念都看烂了,但是也没办法,毕竟这就是HTTP的权威官方
阅读全文
摘要:什么是爬虫 爬虫就是通过编写程序模拟浏览器上网,然后让其去互联网上抓取数据的过程。 爬虫的分类 1.通用爬虫:通用爬虫是搜索引擎(Baidu、Google、Yahoo等)“抓取系统”的重要组成部分。主要目的是将互联网上的网页下载到本地,形成一个互联网内容的镜像备份。 简单来讲就是尽可能的;把互联网上
阅读全文
摘要:pandas的拼接操作 pandas的拼接操作 pandas的拼接操作 pandas的拼接操作 pandas的拼接分为两种: 级联:pd.concat, pd.append 合并:pd.merge, pd.join pandas的拼接分为两种: 级联:pd.concat, pd.append 合并:
阅读全文
摘要:pandas层次化索引 pandas层次化索引 pandas层次化索引 pandas层次化索引 1. 创建多层行索引 1. 创建多层行索引 1. 创建多层行索引 1. 创建多层行索引 1) 隐式构造 最常见的方法是给DataFrame构造函数的index参数传递两个或更多的数组 1) 隐式构造 最常
阅读全文
摘要:导包,np从numpy.fft导入fft、ifft导入图片库PIL中的Image 导包,np从numpy.fft导入fft、ifft导入图片库PIL中的Image 导包,np从numpy.fft导入fft、ifft导入图片库PIL中的Image 导包,np从numpy.fft导入fft、ifft导入
阅读全文
摘要:处理丢失数据 处理丢失数据 处理丢失数据 处理丢失数据 有两种丢失数据: None np.nan(NaN) 有两种丢失数据: None np.nan(NaN) 有两种丢失数据: None np.nan(NaN) 有两种丢失数据: None np.nan(NaN) In [1]: import num
阅读全文
摘要:将鱼图像数据进行操作,使用numpy知识 In [5]: import numpy as np In [6]: import matplotlib.pyplot as plt %matplotlib inline In [3]: fish = plt.imread('fish.png') In [4
阅读全文
摘要:numpy学习 numpy学习 numpy学习 numpy学习 In [15]: import numpy as np In [15]: import numpy as np In [15]: import numpy as np import numpy as np import numpy as
阅读全文
摘要:import numpy as np import numpy as np import numpy as np import numpy as np import numpy as np In [9]: #1 创建一个长度为10的一维全为0的ndarray对象,然后让第5个元素等于1 n = np
阅读全文
摘要:目录: 1.数据分析模块 2.数据文件导入 3.图形绘制 4.读取数据并可视化分析 1.数据分析模块 2.数据文件导入 3.图形绘制 4.读取数据并可视化分析
阅读全文
摘要:阶段内容回顾: 1. socket 2. 浏览器/爬虫等都是socket客户端 3. 到底谁疼? - 客户端向服务端发起连接时,服务端疼 - 客户端向服务端发送数据时,客户端疼(为客户端创建的socket对象) conn,addr = server.accept() conn.recv() 4. 如
阅读全文
摘要:知识点回顾: 1. GIL锁 2. 进程和线程的区别? 第一: 进程是cpu资源分配的最小单元。 线程是cpu计算的最小单元。 第二: 一个进程中可以有多个线程。 第三: 对于Python来说他的进程和线程和其他语言有差异,是有GIL锁。 GIL锁保证一个进程中同一时刻只有一个线程被cpu调度。注意
阅读全文
摘要:1. 锁:Lock (1次放1个)同步锁 线程安全,多线程操作时,内部会让所有线程排队处理。如:list/dict/Queue 线程不安全 + 人 => 排队处理。 需求: a. 创建100个线程,在列表中追加8 b. 创建100个线程 v = [] 锁 - 把自己的添加到列表中。 - 在读取列表的
阅读全文
摘要:1. 操作系统/应用程序 a. 硬件 - 硬盘 - CPU - 主板 - 显卡 - 内存 - 电源 ... b. 装系统(软件) - 系统就是一个由程序员写出来软件,该软件用于控制计算机的硬件, 让他们之间进行相互配合。 c. 安软件(安装应用程序) - QQ - 百度云 - pycharm ... 2. 并发和并行 并发,伪,由于一个人执行速度特别快,人感觉不到停顿。 并行,真,创建10个人同时
阅读全文
摘要:本实例有文件传输相关功能,包括:文件校验、进度条打印、断点续传 客户端示例: 服务端示例:
阅读全文