python数据分析包 - pandas - dataframe
1. dataframe
DataFrame是一个表格型的数据结构,相当于是一个二维数组,含有一组有序的列。他可以被看做是由Series组成的字典,并且共用一个索引。
2. 创建方式
1. pd.DataFrame({'one':[1,2,3,4],'two':[4,3,2,1]}) 2. pd.DataFrame({'one':pd.Series([1,2,3],index=['a','b','c']),'two':pd.Series([1,2,3],index=['b','a','c'])}) 3. pd.read_csv('csv文件')
3. 常用属性和方法
index 获取行索引
columns 获取列索引
T 转置
columns 获取列索引
values 获取值索引
describe 获取快速统计
4. 切片
方法1:两个中括号,先取列再取行。 df['A'][0] 方法2(推荐):使用loc/iloc属性,一个中括号,逗号隔开,先取行再取列。 loc属性:解释为标签 iloc属性:解释为下标
5. 缺失数据
1. dropna(axis=0, how='any') # axis可以指定行,列(0表示行,1表示列),how='all'表示当一行(或一列)都是0的时候才会被删除 2. fillna() 3. isnull() 4. notnull()
6. 常用方法
1. 常用方法
7. 时间格式处理
1. 灵活处理时间对象:dateutil包
import dateutil dateutil.parser.parse("2019 Jan 2nd") # 这中间的时间格式一定要是英文格式,也可以是202/02/01等其他格式 运行结果: datetime.datetime(2019, 1, 2, 0, 0)
2. pd.to_datetime() 批量处理
3. 产生时间对象数组:data_range
start 开始时间 end 结束时间 periods 时间长度 freq 时间频率,默认为'D',可选H(our),W(eek),B(usiness),S(emi-)M(onth),(min)T(es), S(econd), A(year),…