Python数据分析 | 数据分析工具库Pandas介绍

ShowMeAI研究中心

作者:韩信子@ShowMeAI
教程地址https://www.showmeai.tech/tutorials/33
本文地址https://www.showmeai.tech/article-detail/145
声明:版权所有,转载请联系平台与作者并注明出处


一、Pandas介绍

Pandas最初由AQR Capital Management于2008年4月开发,并于2009年底开源出来,目前由专注于Python数据包开发的PyData开发团队继续开发和维护,属于PyData项目的一部分。Pandas的名称来自于面板数据(panel data)和python数据分析(data analysis)。

Pandas是Python中最常用到的数据操作和分析工具包,它构建在Numpy之上,具备简洁的使用接口和高效的处理效率。数据科学、机器学习AI应用过程,涉及数据清洗和分析的操作也频繁使用到Pandas。

Pandas有着与Numpy类似的代码风格,但Pandas主要基于其Dataframe对象处理表格型或异质型数据,而之前介绍到的Numpy更适合处理同质的数值类型数据。

当我们提到python数据分析的时候,大部分情况下都会使用Pandas进行操作。本篇为pandas系列的导语,对pandas进行简单介绍,整个系列覆盖以下内容:

二、Pandas特点

  • 方便地处理浮点与非浮点数据里的缺失数据,表示为 NaN;
  • 大小可变:插入或删除 DataFrame 等多维对象的列;
  • 自动、显式数据对齐:显式地将对象与一组标签对齐,也可以忽略标签,在 Series、DataFrame 计算时自动与数据对齐;
  • 强大、灵活的分组(group by)功能:拆分-应用-组合数据集,聚合、转换数据;
  • 把 Python 和 NumPy 数据结构里不规则、不同索引的数据轻松地转换为 DataFrame 对象;
  • 基于智能标签,对大型数据集进行切片、花式索引、子集分解等操作;
  • 直观地合并(merge)、连接(join)数据集;
  • 灵活地重塑(reshape)、透视(pivot)数据集;
  • 轴支持结构化标签:一个刻度支持多个标签;
  • 成熟的 IO 工具:读取文本文件(CSV 等支持分隔符的文件)、Excel 文件、数据库等来源的数据,利用超快的 HDF5 格式保存 / 加载数据;
  • 时间序列:支持日期范围生成、频率转换、移动窗口统计、移动窗口线性回归、日期位移等时间序列功能。

三、Pandas安装

可以在命令行基于以下命令安装pandas(如果使用anaconda集成环境,内置环境自带pandas,无需安装):

pip install pandas
conda install pandas
python3 -m pip install --upgrade pandas

对于Linux,比如Ubuntu,可以使用下面的方法安装,但可能出现各种依赖缺失或者安装错误:

sudo apt-get install python-numpy python-scipy python-matplotlib ipython python-pandas python-sympy python-nose

安装完Pandas后,我们就可以在python环境中导入它了:

import pandas as pd

有时候,我们会单独导入pandas包含的两个重要数据结构:

from pandas import Series, DataFrame

可以如下查看当前Pandas的版本信息:

pd.__version__

资料与代码下载

本教程系列的代码可以在ShowMeAI对应的github中下载,可本地python环境运行,能访问Google的宝宝也可以直接借助google colab一键运行与交互操作学习哦!

本系列教程涉及的速查表可以在以下地址下载获取:

拓展参考资料

ShowMeAI图解数据分析系列推荐(数据科学家入门)

ShowMeAI系列教程精选推荐

posted @ 2022-02-25 16:10  ShowMeAI  阅读(451)  评论(0编辑  收藏  举报