Pandas 入门
import pandas as pd
pd.__version__ # 查看 pandas 版本
'1.2.2'
Pandas 中的 Series
Pandas Series 类似表格中的一个列(column),类似于一维数组,可以保存任何数据类型。
Series 由索引(index)和列组成,函数如下:
pandas.Series( data, index, dtype, name, copy)
参数说明:
data:一组数据(ndarray 类型)。
index:数据索引标签,如果不指定,默认从 0 开始。
dtype:数据类型,默认会自己判断。
name:设置名称。
copy:拷贝数据,默认为 False。
# 创建Series
test = [100, 90, 80, 70, 60]
mySeries = pd.Series(data=test, index=list(range(1, 6))) # 指定下标索引
print(mySeries)
print(mySeries[2]) # 通过索引读取数据
1 100
2 90
3 80
4 70
5 60
dtype: int64
90
Pandas 中的 DataFrame
DataFrame 是一个表格型的数据结构,它含有一组有序的列,每列可以是不同的值类型(数值、字符串、布尔型值)。DataFrame 既有行索引也有列索引,它可以被看做由 Series 组成的字典(共同用一个索引)。
创建 DataFrame
gradeList = {
'Students' : ['Alice', 'Bob', 'Curt', 'David', 'Eve'],
'Chinese' : [90, 89, 68, 88, 69],
'Math' : [89, 70, 89, 99, 100],
'English' : [89, 67, 78, 89, 67]
}
df = pd.DataFrame(data=gradeList)
print(df)
Students Chinese Math English
0 Alice 90 89 89
1 Bob 89 70 67
2 Curt 68 89 78
3 David 88 99 89
4 Eve 69 100 67
DataFrame 返回某行数据
# 使用 loc 通过指定行索引返回某行数据
print(df.loc[1]) # 返回第一行数据
Students Bob
Chinese 89
Math 70
English 67
Name: 1, dtype: object
print(df.loc[[1, 2]]) # 返回第一行和第二行数据 多行使用 loc[[...]]
Students Chinese Math English
1 Bob 89 70 67
2 Curt 68 89 78
DataFrame 返回某列数据
# 直接引用 DataFrame 的列名以返回此列
print(df.Students)
0 Alice
1 Bob
2 Curt
3 David
4 Eve
Name: Students, dtype: object
# 或者
print(df['Students'])
0 Alice
1 Bob
2 Curt
3 David
4 Eve
Name: Students, dtype: object
DataFrame 返回某个单元格的数据
df.loc[1, 'Students'] # 先行索引, 后列索引
'Bob'