1. pandas.
构造:
Series一维数组,类似字典
Series (data, index)
Series (data=dic, index)
读取DataFrame的一列
索引访问:
字典访问: s[key]
下标访问: s[index]
loc访问:s. loc [key]
iloc访问: s. iloc[index]
列表访问:结合上面4种方法
Bool列表访问: list, numpy,长度匹配
Series长度匹配,索引匹配
切片操作:
注意: 索引操作都是闭区间,下标操作都是开区间,
下标: s[index1:index2]
loc
iloc
常用操作:
属性访问: index, values, dtype, shape
查看头尾n个元素: head (), tail ()
值排序: sort_values (ascending-True)
索引排序: sort_index ()
统计元素次数: value_counts ()
去重操作: unique () [A, B, A, B, C] -> [A, B, C]
运算:
Series + num 广播
Series + numpy 先转换成numpy类型再运算
Series + Series索引对齐,不对齐补空值
操作函数: add, sub, mul, div
或者可以先处理空值再运算
DataFrame
构造:
DataFrame (data, index, columns)
DataFrame (data=dic, index)
pd. read_excel (io, sheet_name, header, index_col)
DataFrame(Series)
访问:
运算:
访问列: df[column]
访问行: df. loc [index]
访问元素: df. loc [index, column]
访问都可以结合列表、切片操作
间接访问(只读)、直接访问(读写)
【注意】直接用[]访问,索引是列索引,切片是行切片
聚合运算:默认是列方向的聚合, axis修改聚合方向
DataFrame + num广播
DataFrame + numpy --> df. values + numpy 广播
DataFrame + Series --> df. add (s, axis=0(1)指定索引对齐的方向
DataFrame + DataFrame 索引对齐