python数据分析包 - pandas - dataframe

1. dataframe

　　DataFrame是一个表格型的数据结构，相当于是一个二维数组，含有一组有序的列。他可以被看做是由Series组成的字典，并且共用一个索引。

2. 创建方式

1. pd.DataFrame({'one':[1,2,3,4],'two':[4,3,2,1]})
2. pd.DataFrame({'one':pd.Series([1,2,3],index=['a','b','c']),'two':pd.Series([1,2,3],index=['b','a','c'])})
3. pd.read_csv('csv文件')

3. 常用属性和方法

index 获取行索引
columns 获取列索引
T 转置
columns 获取列索引
values 获取值索引
describe 获取快速统计

4. 切片

方法1：两个中括号，先取列再取行。 df['A'][0]
方法2（推荐）：使用loc/iloc属性，一个中括号，逗号隔开，先取行再取列。
　　loc属性：解释为标签
　　iloc属性：解释为下标

5. 缺失数据

1. dropna(axis=0, how='any')  # axis可以指定行，列（0表示行，1表示列），how='all'表示当一行（或一列）都是0的时候才会被删除
2. fillna()
3. isnull()
4. notnull()

6. 常用方法

1. 常用方法

7. 时间格式处理

1. 灵活处理时间对象：dateutil包

import dateutil
dateutil.parser.parse("2019 Jan 2nd")  # 这中间的时间格式一定要是英文格式，也可以是202/02/01等其他格式

运行结果:
datetime.datetime(2019, 1, 2, 0, 0)

2. pd.to_datetime() 批量处理

3. 产生时间对象数组：data_range

start 开始时间
end 结束时间
periods 时间长度
freq 时间频率，默认为'D'，可选H(our),W(eek),B(usiness),S(emi-)M(onth),(min)T(es), S(econd), A(year),…

posted @ 2022-02-12 21:29 10132714 阅读(172) 评论(0) 收藏举报

刷新页面返回顶部

10132714

python数据分析包 - pandas - dataframe

公告