一、安装 - Python idle调用anaconda包
sys.path.append(r'E:\anaconda\Lib\site-packages')
类型 Series和DataFrame
s2=pd.Series([1,2,3,4],['a','b','c','d'])
s2.astype('str')
属性
df.values 返回series对象所有元素 df.shape 返回数据形状 df.dtypes 返回数据类型
df.columns 列标签 tolist() 转为列表 df.ndim 维数 df.size 对象个数 NaN 缺失值
二、语句
1.读取文件
df =pd.read_csv(".csv", encoding= , dtype={'':str},nrows,sep='')
read_excel(xlsx,encoding=,sheet_name='')
df.head() 前5条内容
2.操作函数
df.T 行列颠倒
df.sort_values([''],ascending=False) 排序
df.x.rank(ascending=False,method=first,min,max) x代表列
df.x.unique() 去重
df.x.value_counts() 计数
df.describe() 统计描述
df.x.cumsum() 累加
pd.cut(df.x.bins=5) 将数字进行5等分区间显示
3.切片
order.loc[[7,10], ['name']] 取7-10行name列
order.loc[order['id']==458, ['id','name']]
order.iloc[2:7,[2,3]] 按位置取2-6行 3-4列
order.[[,]] [] . isin('') 是否包含某元素
.str.contains(‘’) 包含字符串 .between(?,?,inclusive=True)]
4.增删改查
drop['', axis=()] axis 0为行,1为列
del order[''] 删除列
insert(序列,'名称',值) 插入
order.describe() 改赋值
order.rename(columns={'':''},index={ :''},inplace=True) 修改列、行标题 inplace后才能生效
pd.merge(left, right, on='key') 合并列根据key
pd.concat(pieces) 直接添加合并 pd.concat(pieces),axis=1)左右合并
join 根据索引合并
groupby(by=[]).mean().avg(Series) 根据条件进行分组
position.loc[position.city== ] = np.NaN 赋予空值
df1.dropna(how='any') 删除所有带有缺省项的行
df1.fillna(value=5) 填充缺省项
pd.isnull(df1) 获得缺省项的布尔掩码
drop_duplicated() 去重
df.apply(np.cumsum) 使用函数
pd.pivot_table(df, values='D', index=['A','B'], columns=['C']) 数据透视