Pandas

 

1. Pandas 简介

Pandas 是python中数据操纵和分析的软件包。Pandas 得名计量经济学 Pannel Data一词。

Pandas 中定义了两个新的数据结构, Pandas Series 与 Pandas DataFrame。 可以处理标签数据与关系数据。

 

本节目标:

如何导入Pandas

如何创建 Pandas Series 与 Pandas DataFrame

如何访问Series 与 DataFrame 中数据

 

 

1.2 Why Pandas?

机器学习算法能取得最近的飞速发展,部分原因就是我们可以用大量数据训练算法。但是,对于数据来说,数量并不是唯一重要的方面,数据质量也同等重要。经常大型数据库并不能直接馈送到学习算法中。很多时候,大型数据集缺失值、存在离群值、不正确的值,等等…例如,如果数据存在大量丢失值或糟糕值,机器学习算法将无法达到很好的性能。因此,机器学习的重要一步是首先检查数据,通过进行一些基本的数据分析,确保数据很适合你的训练算法。这时候,Pandas 就派上用场了。Pandas Series 和 DataFrame 专门用于快速进行数据分析和操纵,并且使用起来灵活简单。以下是使 Pandas 成为出色的数据分析软件包的几个功能:

  • 允许为行和列设定标签
  • 可以针对时间序列数据计算滚动统计学指标
  • 轻松地处理 NaN 值
  • 能够将不同格式的数据加载到 DataFrame 中
  • 可以将不同的数据集合并到一起
  • 与 NumPy 和 Matplotlib 集成

因为这些原因以及其他原因,Pandas DataFrame 已经成为 Python 中最常用的数据分析 Pandas 对象之一。

 

 

1.3 创建 Pandas Series

 

posted @ 2020-01-26 13:32  elewei  阅读(242)  评论(0编辑  收藏  举报