1) DataFrame的创建
最常用的方法是传递一个字典来创建。DataFrame以字典的键作为每一【列】的名称,以字典的值(一个数组)作为每一列。
此外,DataFrame会自动加上每一行的索引(和Series一样)。
同Series一样,若传入的列与字典的键不匹配,则相应的值为NaN。
#数据分析三剑客 import numpy as np import pandas as pd from pandas import Series, DataFrame import matplotlib as mpl
#使用构造函数构造 DataFrame (data=np. random. randint (0, 100, size=(3, 5)), index=list ("abc"), columns=list ("ABCDE"))
#字典方式构造 dic = {"A": np. random. randint (0, 100, size=3), "B":np. random. randint (0, 100, size=3), "C" :np. random. randint (0, 100, size=3), "D": np. random. randint (0, 100, size=3), "E": np. random. randint (0, 100, size=3),} DataFrame (data=dic, index=list ("abc"))
#使用Series构造DataFram s = Series (data=np. random. randint (0, 100, size=5), index=list ("abcde"), name="python") s
a 18 b 2 c 26 d 74 e 36 Name: python, dtype: int32
df=DataFrame(data=s) df
从文件中读取DataFrame对象
pd. read_csv ()
pd. read_table |
pd. read_excel ()
#读入excel数据 #header 设置excel中,那几行作为列标签,默认就是第一行 #index_col设置excel中,那几列作为行标签 pd.read_excel ("data.xls", header=0, index_col=0)
# sheet_name可以指定索引,也可以指定工作表名称 df=pd.read_excel ("data.xls", header=0, index_col=0,sheet_name="Sheet2") df