08 2020 档案
摘要:使用Pandas得到阿布分布功能进行运算是,经常需要创建临时对象,这样会占用很大的内存和使用较长的计算时间。pandas为了解决性能问题,引入了eval()和query()函数,他们都依赖Numexpr包,运算过程中不需要费力地配置中间数组。 一、使用Pandas.eval()实现高性能运算 1、p
阅读全文
摘要:一、什么是数据透视表? 数据透视表(pivot table)是一种在电子表格程序和其他数据分析软件中常用的数据汇总工具。 数据透视表是一种交互式的表,可进行如求和与计算等操作。可以动态的改变版面布置,会立即按照新的布置重新计算数据。 在数据与探索和数据整理时比较常用。 二、数据透视表的创建 方法一:
阅读全文
摘要:一、分类数据的概念 1、什么是分类数据 分类数据(Category Data)是指Pandas数据类型为分类类型的数据 分类数据是由固定的且数量有限的变量组成,通常是字符串。例如: 性别:男、女 血型:A型、B型、C型 国家:中国、美国、德国 分类数据可以设置逻辑顺序,如:高 > 中 > 低 >>>
阅读全文
摘要:一、绘制子图 参数subplots 方法一:设置参数subplots = True即可自动创建子图,可通过参数layout来设置子图布局 df.plot(subplots=True,layout=(1,2),figsize=(12,4)) 方法二:使用Matplotlib的方法,即plt.subbp
阅读全文
摘要:数据处理步骤: 1、Pandas读取数据(如:excel、csv等) 2、对数据做过滤、统计分析 3、Pandas将数据存储到MySQL,用于Web页面的页面显示,或是对后序进一步的SQL分析 (处理后的数据) 步骤一:准备数据 import pandas as pd df = pd.read_ex
阅读全文
摘要:一、基于Matplotlib的Pandas绘图方法 Pandas绘制图形相较于Matplotlib来说更为简洁,基础函数为df.plot(x,y) 例: >>>df.plot('time','Money') 二、 基本数据图形类型 通过kind可以设置图形的类型,df.plot()默认绘制折线图,d
阅读全文
摘要:一、图形的层次 二、Matplotlib常用工具箱 Matplotlib工具箱 说明 plt.title('title') 添加子图标题 plt.legend(['In','pt']) 添加图例 plt.xlabel('x') plt.ylabel('y') 添加x/y轴标签 plt.subtitl
阅读全文
摘要:重采样(resampling)指的是将时间序列从一个频率转换到另一个频率的过程,其中: 高频转为低频成为降采样(下采样) 低频转为高频成为升采样(上采样) 1、使用resample()方法进行重采样 例:现有一个以年月日为索引的时间序列ts,将其重采样为年月的频率,并计算均值 >>> ts = pd
阅读全文
摘要:一、时期 1、时期的创建 时期(Period)表示的是时间区间,如数日、数月、数季、数年等。时期的创建需要一个字符或整数以及一个freq参数。 注意:其中freq参数可以参考日期的基础频率表,详见另一篇博文【Pandas时序数据处理(日期范围pd.date_range()、频率(基础频率表)及移动(
阅读全文
摘要:一、数据可视化 根据目标的不同,数据可视化可以分为探索性分析和解释性分析: 探索性分析:探索、理解数据,并找出事先不确定、但值得关注或分享的信息; 解释性分析:向受众解释确定的问题,并有针对的进行交流和展示。 二、为什么用数据可视化 1、大数据的4V特征 Volume:数据量大 Veolcity:速
阅读全文
摘要:通常选择使用协调世界时(UTC,又称世界统一时间、世界标准时间、国际协调时间)来处理时间序列。 时区是以UTC偏移量的形式表示的。 在Python中,时区信息来自第三方库pytz,Pandas包装了pytz功能。时区名可以在文档中找到,也可以用交互的方式查看。 关于pytz模块的信息,可参考【pyt
阅读全文
摘要:一、生成日期范围的时序数据 pd.date_range()可用于生成指定长度的日期索引,默认产生按天计算的时间点(即日期范围)。其参数可以是: 起始结束日期 或者是仅有一个起始或结束日期,加上一个时间段参数 以下三种方法结果一致: pd.date_range('20200801','20200810
阅读全文
摘要:一、Pandas中时间序列的类型 Pandas中最为基础的时间序列类型就是以时间戳(通过以Python字符串或datetime对象表示)为索引的Series; >>> import pandas as pd >>> import numpy as np >>> dates = ['2020-8-1'
阅读全文
摘要:一、什么是时间序列? 时间序列(Time Series)是一种重要的结构化数据形式,在多个时间点观察或测量到的任何事物都可以形成一段时间序列,可分为以下两种: 定期的时间序列:数据根据某种规律定期出现(例如:每10秒、每1分) 不定期的时间序列:数据之间并没有固定的时间单位或是单位之间的偏移量 二、
阅读全文
摘要:数据聚合除了GroupBy.mean()的聚合方法外,另一种直观的方法是直接接在GroupBy对象之后; 例: >>> import pandas as pd >>> df = pd.read_excel('./input/class.xlsx') >>> df class sex score_ma
阅读全文
摘要:将自己定义的或其他库的函数应用于Pandas对象,有以下3种方法: apply():逐行或逐列应用该函数 agg()和transform():聚合和转换 applymap():逐元素应用函数 一 、apply() 其中:设置axis = 1参数,可以逐行进行操作;默认axis=0,即逐列进行操作;
阅读全文
摘要:数据分组的高级方法有3种: 通过字典进行分组 通过函数进行分组 根据层次化索引级别进行分组 一、根据字典进行分组 若希望按照特征类别进行分组,可创建一个映射字典 >>> df = pd.read_excel('./input/data1.xlsx') >>> df A_male B_female C
阅读全文
摘要:数据分组的基本方法有3种: 分组大小和分组排序 对分组进行迭代 选择指定组或指定的列 一、分组大小和分组排序 可通过GroupBy对象的size()方法,知道每个分组的样本数; >>> df.groupby(['class']).size() class A 3 B 4 C 2 dtype: int
阅读全文
摘要:GroupBy技术是对于数据进行分组计算并将各组计算结果合并的一项技术,包括以下3个过程: 拆分(Spliting):即将数据进行分组 应用(Applying):对每组应用函数进行计算 合并(Combining):将计算结果进行数据聚合 使用GroupBy()可以沿着任意轴进行分组,并且将分组依据的
阅读全文
摘要:说明:本片博文接上篇博文【Pandas数据预处理之数据转换(哑变量编码pd.get_dummies())】以及上上篇博文【 Pandas数据预处理之数据转换(df.map()、df.replace())】 Pandas对于字符串和文本处理通常是由一些内置的字符串方法指定,一般语法格式为:series
阅读全文
摘要:说明:本片博文接上篇博文【 Pandas数据预处理之数据转换(df.map()、df.replace())】 二、哑变量编码 1、什么叫做哑变量? 将类别型特征转化“哑变量矩阵”或是“指标矩阵”,让类别特征转换成数值特征的过程。相当与标签化和OneHOt编码,具体可参考另一篇博文【数据预处理理论5.
阅读全文
摘要:在数据分析中,根据需求,有时候需要将一些数据进行转换,而在Pandas中,实现数据转换的常用方法有: 利用函数或是映射 可以将自己定义的或者是其他包提供的函数用在Pandas对象上实现批量修改。 applymap和map实例方法 在本节中,使用调查的某公司的员工信息为例: numeber_proje
阅读全文

浙公网安备 33010602011771号