pandas(一)
01.功能
1.具备对齐功能的数据结构Series和DataFrame
Series-一维数组的对象,由一组数据和一组与之相关的数据标签(索引)组成。
1.1 创建
函数格式:pd.series([......], index = 【】)--标签可以是数字或字符串,默认情况为创建整数索引
其它创建方式:指定标签、以字典方式
重要参数:values-取值数组;index-索引数组;
1.2导入数据
1 import pandas as pd 2 df=pd.read_csv('path',header=0)
从csv文件中读取数据,并将他们存入dataframe中。只需要调用read_csv函数,其中csv文件的路径‘path’作为函数参数。header关键字告诉Pandas这些数据是否有列名,header=0,表示在第一行。如果没有列名,可将其置为None。当然,可以省略这一关键字。
1.3对数据的操作
快速查看导入的数据
df.head(x)--查看前x行
df.tail(x)--查看后x行
df.columns=['column_name']--按名称查看某列
len(df)-查看数据行数
1 pd.options.display.float_format='{:,.3f}'.format 3 df.describe()
1.2 series在pandas模块下的特性
特性1:属性和方法
字典功能,例如:
1 series_1=Series([4,7,-2,8] 2 index=(['b','c','a','d'])
'b' in series_1 output: True list(series) output:[4, 7, -2, 8] list(series_1.iteritems()) output:[('b', 4), ('c', 7), ('a', -2), ('d', 8)]
DataFrame-表格型的数据结构(二维数据结构),含有一组有序的列。可以视为由Series组成的字典,并且共用一个索引。
2.集成时间序列功能
3.提供丰富的数学运算和操作
4.灵活处理缺失数据