Pandas 百题大冲关-基础部分
1、查看版本信息:print(pd.__version__)
Series 基本操作
1、创建Series的3种方式,1)列表 2)ndarray 3)字典
2、修改 Series 索引:s1.index=['A','B','C','D','E']
3、Series 纵向拼接:s4 = s3.append(s1)
4、Series 按指定索引删除元素:s4=s4.drop('e')
5、Series 修改指定索引元素:s4['A']=3
6、Series 按指定索引查找元素:s4['a']
7、Series 切片操作(对s4
的前 3 个数据访问):s4[:3]
Series 运算
Series 的加法运算是按照索引计算,如果索引不同则填充为 NaN
(空值)。
1、s4.add(s3)加法
2、s4.sub(s3)减法
3、s4.mul(s3)乘法
4、s4.div(s3)除法
5、s4.median()中位数
6、s4.sum()求和
7、s4.max()最大值
8、s4.min()最小值
创建 DataFrame 数据类型
1、通过 NumPy 数组创建 DataFrame:
df1=pd.DataFrame(np.random.randn(6,4),index=pd.date_range('today',periods=6),columns=['A','B','C','D'])
date_range():主要用于生成一系列特定的时间,可以自己设定开始、结束、周期数、时间间隔、时区等等。
pd.date_range('today',periods=6)--代表的是从今天开始,生成6条信息;
2、通过字典数组创建 DataFrame:
df2=pd.DataFrame({'animal':['cat', 'cat', 'snake', 'dog', 'dog', 'cat', 'snake', 'cat', 'dog', 'dog'],
'priority': ['yes', 'yes', 'no', 'yes', 'no', 'no', 'no', 'yes', 'no', 'no']}, ----2列10行的数据
index=['a', 'b', 'c', 'd', 'e', 'f', 'g', 'h', 'i', 'j'])
3、查看 DataFrame 的数据类型:df2.dtypes
DataFrame 基本操作
1、预览 DataFrame 的前 5 行数据:df2.head()
2、查看 DataFrame 的后2行数据:df2.tail(2)
3、查看DataFrame 的索引:df.index
4、查看DataFrame 的列名:df.columns
5、查看DataFrame 的数值:df.values
6、查看DataFrame 的统计数据:df.describe()
7、DataFrame 的转置操作:df.T
8、对 DataFrame 进行按列排序:df.sort_values(by='age')
9、对 DataFrame 进行切片:df[:3]
10、对 DataFrame 通过标签查询(单列):df['age']或者df2.age
11、对 DataFrame 通过标签查询(多列):df2[['age', 'animal']]
12、对 DataFrame 通过位置查询(多列):df2.iloc[1:3]和df2[1:3]结果一样
13、DataFrame副本copy:df3=df2.copy()
14、判断DataFrame元素是否为空:df3.isnull()
15、添加列数据:df3['NO.']=[0, 1, 2, 3, 4, 5, 6, 7, 8, 9]
16、 根据 DataFrame 的下标值进行更改:df3.iat[1, 1] = 2
17、根据 DataFrame 的标签对数据进行修改:df3.loc['f', 'age'] = 1.5
18、对DataFrame求平均值(按列):df.mean()
19、对DataFrame求和(指定列):df3['visits'].sum()
字符串操作
1、将字符串转化为小写字母:string是一个字符串,string.str.lower()
2、将字符串转化为大写字母:string.str.upper()
DataFrame 缺失值操作
1、对缺失值进行填充:df4.fillna(value=2)
2、删除存在缺失值的行:df5.dropna(how='any')
3、DataFrame按指定列对齐(即共同列,合并行):pd.merge(left, right, on='key')
DataFrame 文件操作
1、CSV文件写入:df3.to_csv('animal.csv')
2、CSV文件读写:df_animal = pd.read_csv('animal.csv')
3、EXCEL写入操作:df3.to_excel('animal.xlsx', sheet_name='Sheet1')
4、EXCEL读取操作:pd.read_excel('animal.xlsx', 'Sheet1', index_col=None, na_values=['NA'])
( index_col是指定某一列为索引,默认为None,即没有索引列,na_values为['NA'])