摘要:
1、新建虚拟机; 2、选择稍后安装操作系统,前面这两步不会的参考我前面2篇博客如何在虚拟机上安装linux操纵系统 - 大脸猫12581 - 博客园 (cnblogs.com)或安装windows server 2016教程 - 大脸猫12581 - 博客园 (cnblogs.com); 3、选择客 阅读全文
摘要:
1.下载linux操作系统的镜像文件(iso文件),官网链接(CentOS Mirrors List) (3)下载大小为4G 或者4.几G的iso镜像文件 2.下载我发的VMware Workstation 16直接安装完成 2、开始安装centos 7: (1)创建新的虚拟机 可以选“自定义”,也 阅读全文
摘要:
1、 我发的VMware Workstation 16直接安装完成(下载链接:阿里云盘分享 (aliyundrive.com)) 安装完成后如下: 2、开始安装windows server 2016: (1)创建新的虚拟机 (2)选中下载的window server 2016的镜像文件(iso文件) 阅读全文
摘要:
一、seaborn介绍 seaborn是python中基于Matplotlib包具有更多可视化效果和更多风格的可视化模块,可以说是Matplotlib的封装。当我们想要探索单个或者一对数据分布上的特征时,可以使用seaborn中内置的若干函数对数据的分布进行多种多样的可视化。 二、kdeplot 对 阅读全文
摘要:
使用Pandas得到阿布分布功能进行运算是,经常需要创建临时对象,这样会占用很大的内存和使用较长的计算时间。pandas为了解决性能问题,引入了eval()和query()函数,他们都依赖Numexpr包,运算过程中不需要费力地配置中间数组。 一、使用Pandas.eval()实现高性能运算 1、p 阅读全文
摘要:
一、什么是数据透视表? 数据透视表(pivot table)是一种在电子表格程序和其他数据分析软件中常用的数据汇总工具。 数据透视表是一种交互式的表,可进行如求和与计算等操作。可以动态的改变版面布置,会立即按照新的布置重新计算数据。 在数据与探索和数据整理时比较常用。 二、数据透视表的创建 方法一: 阅读全文
摘要:
一、分类数据的概念 1、什么是分类数据 分类数据(Category Data)是指Pandas数据类型为分类类型的数据 分类数据是由固定的且数量有限的变量组成,通常是字符串。例如: 性别:男、女 血型:A型、B型、C型 国家:中国、美国、德国 分类数据可以设置逻辑顺序,如:高 > 中 > 低 >>> 阅读全文
摘要:
一、绘制子图 参数subplots 方法一:设置参数subplots = True即可自动创建子图,可通过参数layout来设置子图布局 df.plot(subplots=True,layout=(1,2),figsize=(12,4)) 方法二:使用Matplotlib的方法,即plt.subbp 阅读全文
摘要:
数据处理步骤: 1、Pandas读取数据(如:excel、csv等) 2、对数据做过滤、统计分析 3、Pandas将数据存储到MySQL,用于Web页面的页面显示,或是对后序进一步的SQL分析 (处理后的数据) 步骤一:准备数据 import pandas as pd df = pd.read_ex 阅读全文
摘要:
一、基于Matplotlib的Pandas绘图方法 Pandas绘制图形相较于Matplotlib来说更为简洁,基础函数为df.plot(x,y) 例: >>>df.plot('time','Money') 二、 基本数据图形类型 通过kind可以设置图形的类型,df.plot()默认绘制折线图,d 阅读全文
摘要:
一、图形的层次 二、Matplotlib常用工具箱 Matplotlib工具箱 说明 plt.title('title') 添加子图标题 plt.legend(['In','pt']) 添加图例 plt.xlabel('x') plt.ylabel('y') 添加x/y轴标签 plt.subtitl 阅读全文
摘要:
重采样(resampling)指的是将时间序列从一个频率转换到另一个频率的过程,其中: 高频转为低频成为降采样(下采样) 低频转为高频成为升采样(上采样) 1、使用resample()方法进行重采样 例:现有一个以年月日为索引的时间序列ts,将其重采样为年月的频率,并计算均值 >>> ts = pd 阅读全文
摘要:
一、时期 1、时期的创建 时期(Period)表示的是时间区间,如数日、数月、数季、数年等。时期的创建需要一个字符或整数以及一个freq参数。 注意:其中freq参数可以参考日期的基础频率表,详见另一篇博文【Pandas时序数据处理(日期范围pd.date_range()、频率(基础频率表)及移动( 阅读全文
摘要:
一、数据可视化 根据目标的不同,数据可视化可以分为探索性分析和解释性分析: 探索性分析:探索、理解数据,并找出事先不确定、但值得关注或分享的信息; 解释性分析:向受众解释确定的问题,并有针对的进行交流和展示。 二、为什么用数据可视化 1、大数据的4V特征 Volume:数据量大 Veolcity:速 阅读全文
摘要:
通常选择使用协调世界时(UTC,又称世界统一时间、世界标准时间、国际协调时间)来处理时间序列。 时区是以UTC偏移量的形式表示的。 在Python中,时区信息来自第三方库pytz,Pandas包装了pytz功能。时区名可以在文档中找到,也可以用交互的方式查看。 关于pytz模块的信息,可参考【pyt 阅读全文
摘要:
一、生成日期范围的时序数据 pd.date_range()可用于生成指定长度的日期索引,默认产生按天计算的时间点(即日期范围)。其参数可以是: 起始结束日期 或者是仅有一个起始或结束日期,加上一个时间段参数 以下三种方法结果一致: pd.date_range('20200801','20200810 阅读全文
摘要:
一、Pandas中时间序列的类型 Pandas中最为基础的时间序列类型就是以时间戳(通过以Python字符串或datetime对象表示)为索引的Series; >>> import pandas as pd >>> import numpy as np >>> dates = ['2020-8-1' 阅读全文
摘要:
一、什么是时间序列? 时间序列(Time Series)是一种重要的结构化数据形式,在多个时间点观察或测量到的任何事物都可以形成一段时间序列,可分为以下两种: 定期的时间序列:数据根据某种规律定期出现(例如:每10秒、每1分) 不定期的时间序列:数据之间并没有固定的时间单位或是单位之间的偏移量 二、 阅读全文
摘要:
数据聚合除了GroupBy.mean()的聚合方法外,另一种直观的方法是直接接在GroupBy对象之后; 例: >>> import pandas as pd >>> df = pd.read_excel('./input/class.xlsx') >>> df class sex score_ma 阅读全文
摘要:
将自己定义的或其他库的函数应用于Pandas对象,有以下3种方法: apply():逐行或逐列应用该函数 agg()和transform():聚合和转换 applymap():逐元素应用函数 一 、apply() 其中:设置axis = 1参数,可以逐行进行操作;默认axis=0,即逐列进行操作; 阅读全文
摘要:
数据分组的高级方法有3种: 通过字典进行分组 通过函数进行分组 根据层次化索引级别进行分组 一、根据字典进行分组 若希望按照特征类别进行分组,可创建一个映射字典 >>> df = pd.read_excel('./input/data1.xlsx') >>> df A_male B_female C 阅读全文
摘要:
数据分组的基本方法有3种: 分组大小和分组排序 对分组进行迭代 选择指定组或指定的列 一、分组大小和分组排序 可通过GroupBy对象的size()方法,知道每个分组的样本数; >>> df.groupby(['class']).size() class A 3 B 4 C 2 dtype: int 阅读全文
摘要:
GroupBy技术是对于数据进行分组计算并将各组计算结果合并的一项技术,包括以下3个过程: 拆分(Spliting):即将数据进行分组 应用(Applying):对每组应用函数进行计算 合并(Combining):将计算结果进行数据聚合 使用GroupBy()可以沿着任意轴进行分组,并且将分组依据的 阅读全文
摘要:
说明:本片博文接上篇博文【Pandas数据预处理之数据转换(哑变量编码pd.get_dummies())】以及上上篇博文【 Pandas数据预处理之数据转换(df.map()、df.replace())】 Pandas对于字符串和文本处理通常是由一些内置的字符串方法指定,一般语法格式为:series 阅读全文
摘要:
说明:本片博文接上篇博文【 Pandas数据预处理之数据转换(df.map()、df.replace())】 二、哑变量编码 1、什么叫做哑变量? 将类别型特征转化“哑变量矩阵”或是“指标矩阵”,让类别特征转换成数值特征的过程。相当与标签化和OneHOt编码,具体可参考另一篇博文【数据预处理理论5. 阅读全文
摘要:
在数据分析中,根据需求,有时候需要将一些数据进行转换,而在Pandas中,实现数据转换的常用方法有: 利用函数或是映射 可以将自己定义的或者是其他包提供的函数用在Pandas对象上实现批量修改。 applymap和map实例方法 在本节中,使用调查的某公司的员工信息为例: numeber_proje 阅读全文
摘要:
有时在处理连续型数据时,为了方便分析,需要将其进行离散化或者是拆分成“面元(bin)”,即将数据放置于一个小区间中。 在Pandas中,cut() >数据离散化 qcut()-->面元划分 一、cut():等距离散化,设置的bins的每个区间的间隔相等。 与排序与随机重排中采用同样的例子,即“新冠肺 阅读全文
摘要:
排序是一种索引机制的一种常见的操作方法,也是Pandas重要的内置运算,主要包括以下3种方法: 排序方法说明 sort_values() 根据某一列的值进行排序 sort_index() 根据索引进行排序 随机重排 详见后面 本节以新冠肺炎的部分数据为例(读取“today_world_2020_04 阅读全文
摘要:
0、python中append和extend的区别 append()和extend()都是列表中的方法,可参考另一篇博客【列表基础用法说明】; append()和extend()都可以增加列表元素,但是extend()添加的元素必须是可迭代的。 看例子吧!!! >>> list =[1,2] >>> 阅读全文
摘要:
一、pd.merge() pd.merge()的常用参数 参数 说明 left 参与合并的左侧DataFrame right 参与合并的右侧DataFrame how 如何合并。值为{'left','right','outer','inner'},默认为'inner' left: 仅保留左侧Data 阅读全文
摘要:
数据合并:由于数据可能是不同的格式,且来自不同的数据源,为了方便之后的处理与加工,需要将不同的数据转换成一个DataFrame。 Numpy中的concatenate()、vstack()、hstack()可对数组进行拼接,可参考学习。 Pandas提供了pd.concat()、pd.merge() 阅读全文
摘要:
若有一份数据,简略如下: 国家啤酒消耗量烈酒消耗量红酒消耗量总酒精消耗量所在大洲 0 Afghanistan 0.0 0.0 0.0 0.0 AS 1 Albania 89.0 132.0 54.0 4.9 EU 现在的需求为:需要将数据中含有缺失值的行进行提取 步骤1:使用isnull()返回是否 阅读全文
摘要:
一、调整索引、修改列标签 1、调整索引的两种情况: 重新索引 设置新的索引 (1)重新索引 在Pandas对象中,其实索引也是一个对象,所以可对其进行修改。 例如:df.index=['a','b','c'] >>> df = {'one':pd.Series(np.random.randn(3)) 阅读全文
摘要:
一、了解缺失值 通常使用 NA('not available')来代指缺失值 在Pandas的数据结构中,缺失值使用 NaN('Not a Number')进行标识 除了汇总统计方法,还可以使用isnull()来对数据中缺失的样本占比、特征大致的缺失情况进行了解。 >>> df =pd.DataFr 阅读全文
摘要:
一、常用的描述性统计函数 函数 作用 函数 作用 count 非缺失样本的数量 sum 求和 mean 均值 mad 平均绝对偏差(Mean absolute deviation) median 中位数 min 最小值 max 最大值 mode 众数 abs 绝对值 prod 乘积 std 标准差 阅读全文
摘要:
一、数据类型 1、Pandas的数据类型主要结合了pandas和numpy两个模块中的数据类型,包括以下几种: float int bool datetime64[ns] >日期类型 datetime64[ns,tz] >日期类型 timedelta[ns] >时间差类型 category obje 阅读全文
摘要:
一、什么是Panel Series:包含一维索引的一组数据 DataFrame:包含index和columns两个轴 Panel(面板):一种三维数据容器 一个Panel对象由3个轴构成: items >axis=0:每个项目对应于内部包含的DataFrame major_axis >axis=1: 阅读全文
摘要:
一、Pandas pandas的数据元素包括以下几种类型: 类型 说明 object 字符串或混合类型 int 整型 float 浮点型 datetime 时间类型 bool 布尔型 二、Series与DataFrame区别: Series是带索引的一维数组 Series对象的两个重要属性是:ind 阅读全文
摘要:
concatenate与hstack、vstack的异同点: 都表示拼接数组,concatenate可以实现hstack和vstack的功能,只需要通过调整参数axis的值即可。 其中:v表示垂直(Vertical) h表示水平(Horizontal) axis=0,表示将拼接新行,相当于vstac 阅读全文
摘要:
一、numpy“通用函数”(ufunc)包括以下几种: 元素级函数(一元函数):对数组中的每个元素进行运算 数组级函数:统计函数,像聚合函数(例如:求和、求平均) 矩阵运算 随机生成函数 常用一元通用函数、数组级函数 函数名 作用 例子 结果 np.abs()、sum()、mean() std()、 阅读全文