代码改变世界

dataframe 用法总结

2017-05-05 18:04  xplorerthik  阅读(1190)  评论(0编辑  收藏  举报

http://pda.readthedocs.io/en/latest/chp5.html

data = [] 列表初始化

data = (,)

data = {} 字典初始化

data = pd.DataFrame()  dataframe 初始化

data = {'state': ['Ohio', 'Ohio', 'Ohio', 'Nevada', 'Nevada'],
        'year': [2000, 2001, 2002, 2001, 2002],
        'pop': [1.5, 1.7, 3.6, 2.4, 2.9]}
frame = DataFrame(data)
列扩展就直接用data['month'] =[1,2,4,5,7]

DataFrame有行名称index和列名称columns 的属性: dataframe.index /dataframe.columns
DataFrame的 indexcolumns 有它们的 name ,也会被显示出来:
frame3.values   # 返回一个ndarry 

DataFrame 的列名取法:
data = pd.DataFrame()
data.columns #查看列名
data.columns = ['','','',''] # 改名

DataFrame 还有values 属性(返回一个包含在DataFrame中的数据的二维ndarray) 机器学习建模经常用它来获取ndarray

DataFrame 的某一列可以用字典记忆法来检索

data['year'] # [2000, 2001, 2002, 2001, 2002]
DataFrame 的某一列也可用属性来检索
data.year      # [2000, 2001, 2002, 2001, 2002]

DataFrame 的某一列也可用位置来检索
data.ix[0:,1] #

 

   pop = {'Nevada': {2001: 2.4, 2002: 2.9},  'Ohio': {2000: 1.5, 2001: 1.7, 2002: 3.6}}  # 嵌套字典

   内部字典的键被结合并排序来形成结果的索引。 

DataFrame(pop, index=[2001, 2002, 2003])

 数据写到文件

a = {‘c’:[], 'd':[], 'e':[]}

b = pd.DataFrame(a)

b.to_csv('file.csv')

2维数组 数据索引:  c[:3,:]  # 从c0,c1,c2.     c[3:,:]   # 取值 从 c3,c4,c5

 

c = b.values  # c就变成了ndarray 类型

c[:3,:]  #表示 从c0,c1,c2.     c[3:,:]   # 取值 从 c3,c4,c5

 b是dataframe型。  b.ix[:3,:]  # 索引会到b0,b1,b2,b3