参考链接:http://c.biancheng.net/pandas/dataframe.html
原理:
基于Numpy,底层由cpython、c编写,对数据进行整合、操作、处理、分析、可视化;Pandas 的主要数据结构是 Series 和 DataFrame,一维、二维数据结构,使得数据操作更加简单和高效。
操作及作用:
andas 的主要数据结构是 Series 和 DataFrame。
Series 是一种类似于数组的数据结构,由一组值和一组与之相关的标签组成。标签可以是数字或字符串。Series 的标签被称为索引。
DataFrame 是一个表格型的数据结构,包含有一组有序的列,每列可以是不同的值类型,而且可以拥有行索引和列索引。DataFrame 可以看作是由多个 Series 组成的字典。
Pandas 的核心是对数据的索引和操作。它支持多种常见的数据格式,包括 CSV、Excel、SQL 数据库等,同时还支持数据清洗、合并、切片、分组、聚合、重塑、透视等操作。
基本使用:
传入要操作的数据,创建Series对象,然后访问数据。Series常用方法及作用:
axes 以列表的形式返回所有行索引标签。 dtype 返回对象的数据类型。 empty 返回一个Bool判断 Series 对象是否为空。 ndim 返回输入数据的维数,Series为一维数据结构,返回1。 size 返回输入数据的元素数量(长度),这里为Series对象长度。 values 以 ndarray 的形式返回 Series 对象中的数据。 index 返回一个RangeIndex对象,用来描述索引的取值范围。 head()&tail()
如果想要查看 Series 的某一部分数据,可以使用 head() 或者 tail() 方法。其中 head() 返回前 n 行数据,默认显示前 5 行数据。tail() 返回的是后 n 行数据,默认为后 5 行 isnull()&nonull()
isnull() 和 nonull() 用于检测 Series 中的缺失值。所谓缺失值,顾名思义就是值不存在、丢失、缺少。
- isnull():如果为值不存在或者缺失,则返回 True。
- notnull():如果值不存在或者缺失,则返回 False。
Series values方法:import pandas as pd import numpy as np s = pd.Series(np.random.randn(6)) print(s) print("输出series中数据") print(s.values) #输出结果: 0 -0.502100 1 0.696194 2 -0.982063 3 0.416430 4 -1.384514 5 0.444303 dtype: float64 输出series中数据 [-0.50210028 0.69619407 -0.98206327 0.41642976 -1.38451433 0.44430257]Series index方法:
#显示索引 import pandas as pd s=pd.Series([1,2,5,8],index=['a','b','c','d']) # 自己添加为显示索引 print(s.index) #隐式索引 s1=pd.Series([1,2,5,8]) print(s1.index) # 结果输入: 隐式索引: Index(['a', 'b', 'c', 'd'], dtype='object') 显示索引: RangeIndex(start=0, stop=4, step=1)