pandas常用方法总结

1.包导入
2.数据导入
3.数据导出
4.遍历
5.创建对象
6.数据查看
7.数据选取
8.数据清洗
9.数据处理：
10.数据合并
11.数据统计
12.其它：

1.包导入

一般我们需要做如下导入，numpy和pandas一般需要联合使用：

import pandas as pd
import numpy as np
本文采用如下缩写：

df：Pandas DataFrame对象
s： Pandas Series对象

2.数据导入

pd.read_csv(filename)：从CSV文件导入数据
pd.read_table(filename)：从限定分隔符的文本文件导入数据
pd.read_excel(filename)：从Excel文件导入数据
pd.read_sql(query, connection_object)：从SQL表/库导入数据
pd.read_json(json_string)：从JSON格式的字符串导入数据
pd.read_html(url)：解析URL、字符串或者HTML文件
pd.read_clipboard()：从粘贴板获取内容
pd.DataFrame(dict)：从字典对象导入数据
举例：

#从文本文件中读取数据
df=pd.read_csv('data.csv')    #数据自带列名



#等效于
#sep指分隔符，对于不是固定的分隔符时，可以编写正则表达式作为分隔符
df=pd.read_table('data.csv',sep=',')


#若数据未带列名，可默认：
df1=pd.read_csv('data1.csv',header=None)# header=0保留列属性，header=None不读列属性



#自定义列名：
df2=pd.read_csv('data1.csv',names=['a','b','c','d','messgae'])



#指定message列(第4列)为列索引，index_col为整数或序列
df3=pd.read_csv('data.csv',index_col=4)

3.数据导出

df.to_csv(filename)：导出数据到CSV文件
df.to_excel(filename)：导出数据到Excel文件
df.to_sql(table_name, connection_object)：导出数据到SQL表
df.to_json(filename)：以Json格式导出数据到文本文件

4.遍历

方式1
for index, row in df.iterrows():
print row["c1"], row["c2"]
方式2
for row in df.itertuples(index=True, name='Pandas'):
print getattr(row, "c1"), getattr(row, "c2")
方式3
for i in range(0, len(df)):
print df.iloc[i]['c1'], df.iloc[i]['c2']

5.创建对象

pd.DataFrame(np.random.rand(20,5))：创建20行5列的随机数组成的DataFrame对象
pd.Series(my_list)：从可迭代对象my_list创建一个Series对象
df.index = pd.date_range('1900/1/30', periods=df.shape[0])：增加一个日期索引
index和reindex联合使用很有用处，index可作为索引并且元素乱排序之后，所以跟着元素保持不变，因此，当重拍元素时，只需要对index进行才重排即可:reindex。

举例：

a = pd.Series([9, 8, 7, 6], index = ['a','b','c','d']) 构造一个Series对象a，前面是值，后面是索引
a = pd.Series({'a':9,'b':8,'c':7}) 通过字典创建

标准正太分布数据：s = np.random.normal(0,1,10000)
时间数据：dates = pd.date_range(‘20171021’,periods=6)
随机矩阵：df1 = pd.DataFrame(np.random.randn(6,4), index=dates, columns=list(‘ABCD’))
字典创建：
df = pd.DataFrame({
'A':pd.series([1,2,np.nan,6,8]),
'B':pd.Timestamp('20130102'),
'C':pd.Series(1,index=list(range(4)),dtype='float32'),
'D':np.array([3]*4,dtype='int32'),
'E':pd.Categorical(['test','train','trat','train']),
'F':'foo'
})

6.数据查看

df.head(n)：查看DataFrame对象的前n行
df.tail(n)：查看DataFrame对象的最后n行
df.shape()：查看行数和列数
df.info()：查看索引、数据类型和内存信息
df.describe()：查看数值型列的汇总统计
s.value_counts(dropna=False)：查看Series对象的唯一值和计数
df.apply(pd.Series.value_counts)：查看DataFrame对象中每一列的唯一值和计数
apply的用处很多，比如可以通过跟lambda函数联合，完成很多功能：将包含某个部分的元素挑出来等等。

df.values.tolist()获得值
df.columns.values.tolist()获得列名

举例：cities['Is wide and has saint name'] = (cities['Area square miles'] > 50) & cities['City name'].apply(lambda name: name.startswith('San'))

7.数据选取

df[col]：根据列名，并以Series的形式返回列
df[[col1, col2]]：以DataFrame形式返回多列
s.iloc[0]：按位置选取数据
s.loc['index_one']：按索引选取数据

df.loc基于标签，df.iloc基于索引（从0开始），ix基于标签或索引
df.iloc[0,:]：返回第一行
df.iloc[3] #第四行
df.iloc[:,3] #第四列
df.iloc[3:5,0:2] #第四到六行，第一到三列
df.iloc[[4,5,6],[0,1,2]] #第四到六行，第一到三列

df[] #这是对行进行切片

举例：
df.loc[0:10] #切片方式查看前10个元素
df.loc(83, "列名")#定位到某个元素，行列分别是：83为行数和列名

8.数据清洗

df.columns = ['a','b','c']：重命名列名
pd.isnull()：检查DataFrame对象中的空值，并返回一个Boolean数组
pd.notnull()：检查DataFrame对象中的非空值，并返回一个Boolean数组
df.dropna()：删除所有包含空值的行
df.fillna(x)：用x替换DataFrame对象中所有的空值
s.astype(float)：将Series中的数据类型更改为float类型
s.replace(1,'one')：用‘one’代替所有等于1的值
df.rename(columns=lambda x: x + 1)：批量更改列名
df.set_index('column_one')：更改索引列

举例：

df.dropna(how=’any’)#去掉包含缺失值的行
df.fillna(value=5)#对缺失值进行填充
pd.isnull(df)#查看该列为空(NaN)的所有元素，是空的返回true，不空返回false

9.数据处理：

Filter, Sort, GroupBy

df[df[col] > 0.5]：选择col列的值大于0.5的行
df.sort_values(col1)：按照列col1排序数据，默认升序排列
df.groupby(col)：返回一个按列col进行分组的Groupby对象
df.groupby(col1).agg(np.mean)：返回按列col1分组的所有列的均值
df.pivot_table(index=col1, values=[col2,col3], aggfunc=max)：创建一个按列col1进行分组，并计算col2和col3的最大值的数据透视表
df.apply(function) #通过自定义函数，应用于df中
例如：data.apply(np.mean)：对DataFrame中的每一列应用函数np.mean
sort_values("列名", inplace=True) #对文件该列进行排序，inplace=True表示排序后覆盖此列

10.数据合并

df1.append(df2)：将df2中的行添加到df1的尾部
df.concat([df1, df2],axis=1)：将df2中的列添加到df1的尾部
df1.join(df2,on=col1,how='inner')：对df1的列和df2的列执行SQL形式的join

11.数据统计

df.describe()：查看数据值列的汇总统计
df.mean()：返回所有列的均值
df.corr()：返回列与列之间的相关系数
df.count()：返回每一列中的非空值的个数
df.max()：返回每一列的最大值
df.min()：返回每一列的最小值
df.median()：返回每一列的中位数
df.std()：返回每一列的标准差
Pandas支持的数据类型

int 整型
float 浮点型
bool 布尔类型
object 字符串类型
category 种类
datetime 时间类型

12.其它：

df.astypes: 数据格式转换
df.value_counts:相同数值的个数统计
df.hist(): 画直方图
df.get_dummies: one-hot编码，将类型格式的属性转换成矩阵型的属性。比如：三种颜色RGB，红色编码为[1 0 0]

posted @ 2020-03-31 21:59 Jeff的技术栈阅读(1080) 评论(0) 收藏举报

刷新页面返回顶部

Jeff的技术栈

生命在于运动，学习在于坚持！！！