pandas-数据索引和修改

pandas-数据索引和修改

数据选取

行列过滤：选取指定的行或者列
条件过滤：对列的数据设置过滤条件
函数过滤：通过函数设置更加复杂的过滤条件

import pandas as pd 
   
data_list = [['A0', 'B0', 'C0', 'D0', 'E0', 'F0', 'G0', 'H0', ],
             ['A1', 'B1', 'C1', 'D1', 'E1', 'F1', 'G1', 'H1',],
             ['A2', 'B2', 'C2', 'D2', 'E2', 'F2', 'G2', 'H2', ],
             ['A3', 'B3', 'C3', 'D3', 'E3', 'F3', 'G3', 'H3', ],
             ['A4', 'B4', 'C4', 'D4', 'E4', 'F4', 'G4', 'H4', ]]
             
# 生成 DataFrame
data = pd.DataFrame(data_list, columns=list('ABCDEFGH')) 
data.index = ['zero','one','two','three','four']
print(data)
# 执行结果
        A   B   C   D   E   F   G   H
zero   A0  B0  C0  D0  E0  F0  G0  H0
one    A1  B1  C1  D1  E1  F1  G1  H1
two    A2  B2  C2  D2  E2  F2  G2  H2
three  A3  B3  C3  D3  E3  F3  G3  H3
four   A4  B4  C4  D4  E4  F4  G4  H4

列选择

# 方法1： DataFrame.column, 数据在前，列名在后，中间使用‘.’来连接
print(data.A)

# 方法2： DataFrame[columns], 数据在前，后跟列名，列名使用中括号包裹  
print(data['A'])

zero     A0
one      A1
two      A2
three    A3
four     A4
Name: A, dtype: object

# 选择多个列
print(data[['A','D','E']])
        A   D   E
zero   A0  D0  E0
one    A1  D1  E1
two    A2  D2  E2
three  A3  D3  E3
four   A4  D4  E4

行索引

# 方法.1 直接index 索引

# 左闭右开区间，包含 0，但不包含 1，所以只表示 1 行。
print(data[0:1])

       A   B   C   D   E   F   G   H
zero  A0  B0  C0  D0  E0  F0  G0  H0


# 选择多行
print(data[1:4])

        A   B   C   D   E   F   G   H
one    A1  B1  C1  D1  E1  F1  G1  H1
two    A2  B2  C2  D2  E2  F2  G2  H2
three  A3  B3  C3  D3  E3  F3  G3  H3

# 方法2 loc函数通过标签索引选择 行数据

同时行列索引

当需要同时选取行和列时，就需要同时使用行索引和列索引，或者同时使用列序号和行序号。对应的方法有 loc 和 iloc

DataFrame.iloc

iloc 方法的参数值是行的整数序号，和列的整数序号

参数可以是索引值,索引列表,索引范围

data.index = ['zero','one','two','three','four']
print(data)
        A   B   C   D   E   F   G   H
zero   A0  B0  C0  D0  E0  F0  G0  H0
one    A1  B1  C1  D1  E1  F1  G1  H1
two    A2  B2  C2  D2  E2  F2  G2  H2
three  A3  B3  C3  D3  E3  F3  G3  H3
four   A4  B4  C4  D4  E4  F4  G4  H4

# 选择行
#  行范围参数和列范围参数之间使用逗号分隔 
print(data.iloc[[1,4], :])
       A   B   C   D   E   F   G   H
one   A1  B1  C1  D1  E1  F1  G1  H1
four  A4  B4  C4  D4  E4  F4  G4  H4


# 选择列
print(data.iloc[:, 2:6])
        C   D   E   F
zero   C0  D0  E0  F0
one    C1  D1  E1  F1
two    C2  D2  E2  F2
three  C3  D3  E3  F3
four   C4  D4  E4  F4

# 同时选择行,同时选择列
print(data.iloc[1:4, 2])
one      C1
two      C2
three    C3
Name: C, dtype: object

# 同时选择行,同时选择列
print(data.iloc[1, 0])
A1

# 获取 data 中，行索引在列表 [0,2,4] 中，列名称在列表 ['B','D','H'] 中的所有数据。
print(data.iloc[[0,2,4], [1,2,4]])
       B   C   E
zero  B0  C0  E0
two   B2  C2  E2
four  B4  C4  E4

# 获取 data 中，行索引在列表 [0,2,4] 中，列名称为 F 的所有数据。
print(data.iloc[[0,2,4], 5])

0    F0
2    F2
4    F4
Name: F, dtype: object

DataFrame.loc

loc 方法接收两个参数，参数之间用逗号分隔。其中第一个参数表示行的范围，第二个参数表示列的范围。

#  行索引使用范围参数
import pandas as pd
data_list = [['A0', 'B0', 'C0', 'D0', 'E0', 'F0', 'G0', 'H0', ],
             ['A1', 'B1', 'C1', 'D1', 'E1', 'F1', 'G1', 'H1',],
             ['A2', 'B2', 'C2', 'D2', 'E2', 'F2', 'G2', 'H2', ],
             ['A3', 'B3', 'C3', 'D3', 'E3', 'F3', 'G3', 'H3', ],
             ['A4', 'B4', 'C4', 'D4', 'E4', 'F4', 'G4', 'H4', ]]
             
# 生成 DataFrame
data = pd.DataFrame(data_list, columns=list('ABCDEFGH')) 
data.index = ['zero','one','two','three','four']
# print(data)

# 选取指定的行
print(data.loc["zero":"one", :])
       A   B   C   D   E   F   G   H
zero  A0  B0  C0  D0  E0  F0  G0  H0
one   A1  B1  C1  D1  E1  F1  G1  H1

# 按范围选取列
print(data.loc[:, ["A","D"]])
        A   D
zero   A0  D0
one    A1  D1
two    A2  D2
three  A3  D3
four   A4  D4

# 行和列也可以同时设置
print(data.loc[["zero","two","four"], "B":"E"])
       B   C   D   E
zero  B0  C0  D0  E0
two   B2  C2  D2  E2
four  B4  C4  D4  E4

修改数据

import pandas as pd
data = {
    'state': ['python', 'python', 'go', 'java'],
    'year': [2001, 2002, 2001, 2002],
    'pop': [1.7, 3.6, 2.4, 2.9]
}
frame = pd.DataFrame(data)
print(frame)

#     state  year  pop
# 0  python  2001  1.7
# 1  python  2002  3.6
# 2      go  2001  2.4
# 3    java  2002  2.9

# 修改单一数据
frame.loc[2,"pop"]=5.0

# 修改整列数据
frame.loc[:,"year"]=[2018, 2019, 2020, 2021]
print(frame)
    state  year  pop
0  python  2018  1.7
1  python  2019  3.6
2      go  2020  5.0
3    java  2021  2.9

# 修改行数据
frame.loc[0,:]=["c++", 1998, 2.1]

# 将一个值赋值给所选区域
frame.iloc[:,2:] = 'same'
print(frame)

#     state  year   pop
# 0     c++  1998  same
# 1  python  2005  same
# 2      go  2016  same
# 3    java  2023  same

# 将精确修改区域内所有数据
frame.iloc[[0, 2], [0, 2]] = [["rust", 4.1],
                              ["sql", 0.3]]
print(frame) 	

# 1  python  2005  same
# 2     sql  2016   0.3
# 3    java  2023  same

参考资料

条件过滤

import pandas as pd
data = {
    'state': ['python', 'python', 'go', 'java'],
    'year': [2001, 2005, 2016, 2023],
    'pop': [1.7, 3.6, 2.4, 2.9]
}
frame = pd.DataFrame(data)
print(frame)

#     state  year  pop
# 0  python  2001  1.7
# 1  python  2005  3.6
# 2      go  2016  2.4
# 3    java  2023  2.9

print(frame["year"]>2010)
#0    False
#1    False
#2     True
#3     True

df=frame[frame["year"]>2010]
print(df)

#  state  year  pop
#2    go  2016  2.4
#3  java  2023  2.9