pandas基础

1、pandas

pandas是基于Numpy的一种工具，该工具是为解决数据分析任务而创建的，Pandas提供了大量能使我们快速便捷处理数据的功能。

pandas的主要数据结构是Series（一维数据）和DataFrame（二维数据），这两种数据结构足以处理金融、统计、社会科学、工程等领域的大多数案例。

pip install pandas

工具安装pandas

2、Series

类似于一维数组的对象

Python容器数据

有序的：tuple(元组)、list(列表)

无序的：dict(字典) 、set(集合)

有键值对的：dict

没有键值对的：tuple、list、set

能用键取值的，就不能用索引，能用索引的就不能用键

Series对象既可以通过索引访问数据，也可以通过键访问数据，既类似于列表，又类似于字典。

为什么要使用键进行访问？——使用键访问，提高数据的可读性。

比如成绩，75，80，70，90，如果使用列表来存储，list_score=[75,80,70,90]，想要取出成绩80，得通过索引list_score[1]来取，如果使用字典来存储，dict_score={“张三”:75,"李四":80,"王五":70,"韩梅":90}，通过键dict_score["李四"]来取，

Series的数据结构：

索引数据键

0 75 张三

1 80 李四

2 70 王五

3 90 韩梅

2.1 Series的创建

Series数据是包含两部分的一维数据，一部分是索引（键）标签——显示索引，两一部分是下标——隐式索引，是在给定数据的时候，下标就已经设置好了。

Series创建有两种方式：一种是通过列表或者一维数组进行创建，另一种通过字典进行创建。

通过列表或者一维数组创建

list_score=[75,80,70,90]
#data——设置的一维数据
#index——设置显示索引，如果没有设置，默认使用的是隐式索引当作显示索引
seires_score = pd.Series(data=list_score)
print(seires_score)
arr = np.random.randint(1,10,size=5)#通过numpy创建一个长度是5的随机数组
series_arr = pd.Series(data=arr)
print(series_arr)
#设置显示索引
arr_1 = np.random.randint(1,100,size=4)
index_1 = ["张三","李四","王五","韩梅"]
series_1 = pd.Series(data=arr_1,index=index_1)

通过字典进行创建

dict_score={"张三":75,"李四":80,"王五":70,"韩梅":90}
#字典的键会被自动设置为显示索引
series_2 = pd.Series(data=dict_score)
print(series_2)
#也可以设置显示索引，设置显示索引的时候，是根据显示索引去字典中查找对应的值，如果没有，,值就为NaN
series_3 = pd.Series(data=dict_score,index=['Tom',"李四",'Jack','Ann'])
print(series_3)
#NaN,not a number,就是空值的意思

2.2索引和切片

索引分为隐式索引和显示索引

显示索引取值

s=pd.Series([10,20,30,40],index=['a','b','c','d'])
#通过显示索引取值，类似字典中的键取值
s['a']
#Series自带的，把显示索引当作属性，类似属性的取值形式
s.a
#.loc的形式（推荐），可以访问多个或者单个
s.loc['a']#取单个
s.loc[['a','d']]#取多个
#还可以使用布尔列表取值，列表中数据的个数与数组中元素的个数一致
bl=np.random.choice([False,True],size=s.size)
s.loc[bl]

隐式索引取值

s=pd.Series([10,20,30,40],index=['a','b','c','d'])
#通过隐式索引取值
#整数作为索引值
s[0]
#.iloc获取（推荐）
s.iloc[0]#取单个
s.iloc[[1,3,2,0]]#取多个

显示索引切片

s=pd.Series([10,20,30,40],index=['a','b','c','d'])
#显示索引切片包头和包尾
s.loc['a':'c']
#当我们不设置显示索引的时候，显示索引和隐式索引是一样的，怎么区分是用显示索引还是隐式索引？
#loc使用的就是显示索引，iloc使用的是隐式索引(包头，不包尾)
s=pd.Series([10,20,30,40])
s.loc[1:3]
s.iloc[1:3]
#切片也支持步长式切片
s1=s.loc[::-1]
s1.iloc[0]
#隐式索引——就是数组的下标，下标的顺序都是从0开始
#显示索引——数据的标记，跟着数据走

2.3 Series的属性和方法

Series的属性：shape(形状)，size(元素个数)，index(显示索引)，values(数据)

s=pd.Series([10,20,30,40],index=['a','b','c','d'])
s.shape#(4,),得到的是一个元组，元组里面只有一个数据，就是列数，因为Series是一维的
s.size#4，元素的个数
s.index#Index(['a', 'b', 'c', 'd'], dtype='object'),获取的是显示索引
s.values#[10 20 30 40] 所有的数据

Series的方法：head()，tail()指定个数的数据，默认是前5个和后五个

s=pd.Series([10,20,30,40,50,60,70,80],index=['a','b','c','d','e','f','g','h'])
s.head()#得到前5个数据
s.head(2)#得到前2个数据
s.tail()#得到后5个数据
s.tail(2)#得到后2个数据
#isnull(),判断数据是否是空值，notnull(),判断数据是否不是空值,pandas中有，Series也自带有的两个方法
s.isnull()
s.notnull()
#或者
pd.isnull(s)
pd.notnull(s)
#使用判断是否有空值的方法，既可以判断数据中是否有空值，也可以提取数据中非空的数据
dict_score={"张三":75,"李四":80,"王五":70,"韩梅":90}
series_3 = pd.Series(data=dict_score,index=['Tom',"李四",'Jack','Ann'])
s3=series_3[series_3.notnull()]
#当数据量很大的时候，使用isnull()得到的数组很大的时候，如何查找判断数组中有没有空值
s.isnull().any()#any的意思就是有一个True，结果就是True

Series的其他方法：sort_index()，根据显示索引排序，sort_values()，根据值排序，value_counts()统计值出现的次数（使用较多的方法），add()

2.4 Series 运算

+，-，*，/

arr = np.random.randint(1,100,size=5)#通过numpy创建一个长度是5的随机数组
s1=pd.Series(arr,index=list('ABCDE'))
print(s+1)
s2=pd.Series(np.random.randint(1,100,size=5),index=list('CDEAB'))
print(s1+s2)#找相同的显示索引进行相加，而不是按顺序进行相加，如果显示索引都没有一样的，结果是什么？
s3=pd.Series(np.random.randint(1,100,size=5),index=list('CDEFB'))
print(s1+s3)#显示索引在另一个数组中没有，会自动补齐NaN,NaN和任何数据相加，结果都是NaN
print(np.nan+10)#nan跟任何数据操作都得nan
#如果不想出现NaN，怎么办呢？
#可以使用add()方法
print(s1.add(s3, fill_value=0))#去除NaN,使用fill_value设置指定数据替换NaN

2.5 Series作业

1.使用多种方法创建以下Series，命名为s1:

语文 150

数学 150

英语 150

理综 300

2.使用多种方法对练习1创建的Series s1进行索引和切片：

索引：数学150

切片：语文150 数学150 英语150

3.随机生成两组学生成绩，一组数据预处理 s2，一组数据挖掘 s3,，学生包括lucy、mery、tom、jack：

找出数据预处理不及格的学生姓名

找出数据挖掘不及格的学生姓名

如果需要给mery的数据预处理成绩加10分，如何实现

#1.
s1=pd.Series({'语文':150,'数学':150,'英语':150,'理综': 300})
s1=pd.Series([150,150,150,300],index=['语文','数学','英语','理综'])
#2.索引
s1['数学']
s1.loc['数学']
s1.iloc[1]
#2.切片
s1.loc['语文':'英语']
s1.iloc[:3]
#3.
s2=pd.Series(np.random.randint(1,100,size=4), index=['lucy','mery','tom','jack'])
s3=pd.Series(np.random.randint(1,100,size=4), index=['lucy','mery','tom','jack'])
s2[s2 < 60]
s3[s3 < 60]
s2['mery'] = s2['mery']+10

3、DataFrame

Series是一维的，一般的业务处理都是多维的，所以出现了DataFrame，它是基于Series，可以看成是Series的字典，键是Series的name属性，值是Series包含的数据。

DataFrame是一个表格型的结构，列标题就是Series的name属性，每一行数据就是Series中的数据

DataFrame中的数据结构是有行有列的，行是有行标题，列是有列标题的，行标题称为行所引，列标题称为列索引。

3.1 DataFrame的创建

1.使用行索引、列索引创建

2.可以使用字典创建

3.从指定的文件中读

4.Series创建

3.1.1使用行、列索引创建

#使用行索引、列索引创建，
#data:数据区是有行有列的，所以是一个二维数组
#index：行标题，一个列表
#columns:列标题，一个列表
data=np.random.randint(20,100,size=(4,2))
index=['lucy','mery','tom','jack']
columns=["数据预处理","数据挖掘"]
df = pd.DataFrame(data=data, index=index,columns=columns)
print(df)

3.1.2 使用字典创建,行索引默认是数组的下标,字典的键会被当做列索引

#使用字典创建,行索引默认是数组的下标,字典的键会被当做列索引
dic={
    "数据预处理":[60,90,50,40],
    "数据挖掘":[70,87,60,40]
}
df1 = pd.DataFrame(data=dic)
print(df1)
dic2={
    "数据预处理":[60,90,50,40],
    "数据挖掘":[70,87,60,40],
    "姓名":['lucy','mery','tom','jack']
}
df2 = pd.DataFrame(data=dic2)
print(df2)

3.1.3 从文件中读取

#从文件中读取,excel读取需要组件 xlrd pip install xlrd,向文件中写入数据的话 pip install xlwt
df3=pd.read_excel("D:\work\school\课件\大数据预处理\教材案例\第7章\成绩单.xlsx")
print(df3)
#如果读取不是第一个表格，则需要设置sheet_name参数，sheet_name参数可以设置下标(下标从0开始)，也可以设置名字
df4=pd.read_excel("D:\work\school\课件\大数据预处理\教材案例\第7章\成绩单.xlsx",sheet_name=1)
print(df4)
df5=pd.read_excel("D:\work\school\课件\大数据预处理\教材案例\第7章\成绩单.xlsx",sheet_name=1)
print(df4)
df5 = pd.read_excel("D:\work\school\课件\大数据预处理\教材案例\第7章\成绩单.xlsx",sheet_name='Sheet2')
print(df5)

#从csv中读取,第一个参数是csv文件所在路径，sep:分隔符（默认是,），encoding：编码（默认是UTF-8）
df6 = pd.read_csv("D:\work\school\课件\大数据预处理\教材案例\第7章\成绩单1.csv", encoding='GB2312')
print(df6)
df7 = pd.read_csv("D:\work\school\课件\大数据预处理\教材案例\第7章\成绩单2.csv", sep=";")
print(df7)

#从mysql中读取
from sqlalchemy import create_engine
#创建数据库连接对象,数据库地址、用户名、密码、数据库、编码
con = create_engine('mysql+pymysql://root:123456@localhost/kettle?charset=utf8')
sqlstr = "select * from student"
df1 = pd.read_sql(sql=sqlstr, con=con)
print(df1)

可以从excel和csv中获取DataFrame数据，那么DataFrame也可以导出一个excel和csv文件

dic3={
    "期末数据预处理":np.random.randint(40,90,size=4),
    "期末数据挖掘":np.random.randint(40,90,size=4),
    "学生姓名":['lucy','mery','tom','jack']
}
df8 = pd.DataFrame(data=dic3)
print(df8)
#将DataFrame数据导出到一个csv文件，sep:分隔符（默认是逗号）,index:是否输出行索引（False：不输出，True：输出），header:是否输出列标题（False：不输出，True：输出）
df8.to_csv("D:\work\school\课件\大数据预处理\教材案例\第7章\期末成绩单.csv", index=False)

#将DataFrame数据导出一个excel文件，index:是否输出行索引（False：不输出，True：输出），header:是否输出列标题（False：不输出，True：输出）,sheet_name:工作表名字

df8.to_excel("D:\work\school\课件\大数据预处理\教材案例\第7章\期末成绩单.xlsx", index=False, sheet_name="期末成绩")

#将DataFrame数据导出到mysql表中，参考第三章基于触发器CDC的导入与导出.py

3.1.4 Series创建

s2=pd.Series(np.random.randint(30,100,size=4), index=['lucy','mery','tom','jack'],name="数据预处理")
df2 = pd.DataFrame(s2)#Series的name属性就是列标题，index就是行标题
print(df2)
#只把预处理数据添加了，还有数据挖掘的数据没有添加，怎么添加呢？
s3=np.random.randint(30,100,size=4)
df2['数据挖掘']=s3#类似字典添加键值对的方式
print(df2)

3.1.5 DataFrame练习

1、创建一个DataFrame，变量名为df1，成绩数据使用随机数，打印数据结构如下（成绩值不一定一样）：

张三李四

数据挖掘 67 53
数据预处理 47 49
nosql 63 73
JavaWeb 54 31

2、创建一个形状为4*6的 DataFrame 并命名为 df2,并指定行索引为[“a”,“b”,“c”,"d"]、列索引为[“A",“B”,“C”,“D”,“E”,“F”]，元素的取值为 1-100 之间的随机数。

3、从期末成绩.csv创建DataFrame并命名为df3，分隔符为;，编码格式为gbk。

#第一题
s2=pd.Series(np.random.randint(30,100,size=4), index=['数据挖掘','数据预处理','nosql','JavaWeb'],name="张三")
df1 = pd.DataFrame(s2)
df1['李四'] = np.random.randint(30,100,size=4)
#第二题
data1 = np.random.RandomState(16).randint(0,100,24)
df1 = pd.DataFrame(data=data1.reshape(4,6),index=["a","b","c","d"],columns=["A","B","C","D","E","F"])
df1
#第三题
df1=pd.read_csv("D:\work\school\课件\大数据预处理\教材案例\第7章\期末成绩.csv",sep=";")
df1

3.2 DataFrame 索引

有列索引，行索引（Series的显示索引），隐式索引（数组的下标）

3.2.1 列索引

#通过列索引访问数据——获取的是一列数据
#df[列标题] 获取多个df[[列标题1,列标题2]]
print(df2['数据挖掘']) #Series类型数据
print(df2[['数据预处理','数据挖掘']])#DataFrame类型

3.2.2 行索引（显示索引获取）

.loc[行索引]，.loc[[行索引1,行索引2]]

print(df2.loc['mery'])#Series类型数据
print(df2.loc[['mery','tom']])#DataFrame类型
#也可以通过布尔类型来访问
print(df2.loc[df.数据预处理 > 60])#取数据预处理大于60分的数据
print(df2.loc[[True, False,True,False]])
#注意访问列的时候不能直接用布尔类型df2[[True,False]],可以使用.loc和切片的方式
print(df2.loc[:,[True,False]])#

#访问元素，先行后列
print(df2.loc['tom','数据预处理'])

#修改元素，比如给jack的数据挖掘加10分
df2.loc['jack','数据挖掘'] += 10
print(df2.loc['jack','数据挖掘'])

3.2.3 隐式索引获取数据

print(df2.iloc[-1])#获取1个，-1是最后一个
#获取多个，将索引放到一个列表中
print(df2.iloc[[0,-1]])#获取第一个和最后一个

#根据隐式索引获取列
print(df2.iloc[:,0])#获取第一列数据
#获取多列
print(df2.iloc[:,[0,-1]])

#隐式索引访问元素
print(df2.iloc[1,0])#第1行，第0列
#显示索引可以通过布尔类型访问
print(df2.loc[df.数据预处理 > 60])#取数据预处理大于60分的数据
#隐式索引是不是也可以这样用？
print(df2.iloc[df.数据预处理 > 60])#报错了，因为隐式索引对应的是下标，df.数据预处理>60是一个Series数据类型，它的结果中有显示索引，跟隐式索引的下标是匹配不上的，所以报错了。那应该怎么取呢？
#是不是可以取df.数据预处理 >60的values值
print((df2.数据预处理>60).values)#得到的是一个数组
print(df2.iloc[(df2.数据预处理>60).values])
####注意，隐式索引使用布尔列表筛选数据时，筛选条件中需要是列表或者一维数组包含布尔值

3.3 DataFrame切片

1.行切片

#显示索引,包头包尾
print(df2.loc['lucy':'tom'])
#隐式索引，包头不包尾
df2.iloc[:-1]
#切片也支持步长
print(df2.loc['lucy':'tom':2])
print(df2.iloc[:-1:2])

print(df2.loc[::2])#结果是？
print(df2.iloc[::2])#结果是？

print(df2.loc[::-1])#把结果反转

2.列切片

#不支持:的方式切片 df.loc['数据挖掘']不支持
#需要通过二维数组的思维对其进行切片
#显示切片，先对行进行切片，再对列进行切片
df.loc[:,:'数据挖掘']
#如果想取某一列的值，则可以通过以下方式获取
df['数据挖掘']
df.数据挖掘
df.loc[:,'数据挖掘']

3.运算

（1）跟一个数值或者跟一个数组（跟原矩阵同列）进行运算

（2）跟Series运算

（3）跟DataFrame运算

df=DataFrame(data=np.random.randint(1,100,size=(4,3)), index=list('ABCD'),columns=list('甲乙丙'))
df
#跟一个数值进行运算
df+1
#跟一个数组进行运算
arr = np.array([1,2,3])
df+arr
#跟Series运算
#Series有显示索引，默认是跟DataFrame的列索引对应，df的列是甲乙丙，s的索引是abc，两者没有共同的列，自动填充NaN,NaN加任何数据都得NaN
s=Series(data=[2,2,2], index=list('abc'))
s
df+s
#跟DataFrame运算
df1=DataFrame(data=np.random.randint(1,100,size=(4,4)), index=list('ABCD'),columns=list('甲乙丙丁'))
df+df1#丁这列的数据会为NaN
#如果想保留丁这一列的原值
df.add(df1, fill_value=0)

4.聚合函数

最大值max、最小值min、求和sum、求平均值mean

df=DataFrame(data=np.random.randint(1,100,size=(4,3)), index=list('ABCD'),columns=list('甲乙丙'))
df.sum()#默认是按列求和
df.sum(axis=1)#按行求和
#求总体的和
df.sum().sum()
#获取B这行的数据和
df.loc['B'].sum()
df.sum(axis=1).loc['B']

3.4 常用的属性和方法

3.4.1 属性

df.values获取所有数据，df.index获取行索引，df.columns获取列索引

df=DataFrame(data=np.random.randint(1,100,size=(4,3)), index=list('ABCD'),columns=list('甲乙丙'))
#获取所有的值
df.values
#行索引
df.index
#列索引
df.columns

3.4.2 方法

df.describe()查看个数、平均值、标准差、中位数等

df.info()查看每一列的数据信息

df.head()查看前几行，默认是前5行

df.tail()查看后几行，默认是后5行

3.5 作业

1、使用numpy的一维数组创建不指定索引的Series，命名s1，要求数组长度为10，随机数为60~100，包含60和100。

2、使用字典创建Series，命名s2，字典内容为：{"lucy":80,"jack":78,"tom":89,"john":90,"lili":87}

3、从字典对象data创建DataFrame，命名df1，设置行索引为labels。

data = {

'animal': ['cat', 'cat', 'snake', 'dog', 'dog', 'cat', 'snake', 'cat', 'dog', 'dog'],

'age': [2.5, 3, 0.5, np.nan, 5, 2, 4.5, np.nan, 7, 3],

'visits': [1, 3, 2, 3, 2, 3, 1, 1, 2, 1],

'priority': ['yes', 'yes', 'no', 'yes', 'no', 'no', 'no', 'yes', 'no', 'no']

}

labels = ['a', 'b', 'c', 'd', 'e', 'f', 'g', 'h', 'i', 'j']

4、显示df1的基础信息，包括行的数量,列名,列的数量，每一列值的非空数量、数据类型

5、展示df1的前3行

6、取出df1的animal和age列

7、取出行索引为[3, 4, 8]行的animal和age列

8、取出age值大于3的行

9、取出age值缺失的行

10、取出age在2,4间的行（包含2和4）

11、f行的age改为1.5

12、计算visits的总和

13、在df1中插入新行k，值为['dog',5.5, 2, 'no']

14、计算df1中每个种类animal的数量

#1
s1=pd.Series(np.random.randint(60,101, size=10))
#2
dic={"lucy":80,"jack":78,"tom":89,"john":90,"lili":87}
s2=pd.Series(dic)
#3
data = {'animal': ['cat', 'cat', 'snake', 'dog', 'dog', 'cat', 'snake', 'cat', 'dog', 'dog'],
        'age': [2.5, 3, 0.5, np.nan, 5, 2, 4.5, np.nan, 7, 3],
        'visits': [1, 3, 2, 3, 2, 3, 1, 1, 2, 1],
        'priority': ['yes', 'yes', 'no', 'yes', 'no', 'no', 'no', 'yes', 'no', 'no']}
labels = ['a', 'b', 'c', 'd', 'e', 'f', 'g', 'h', 'i', 'j']
df1 = pd.DataFrame(data, index=labels)
#4
df1.info()
#5
df1.iloc[:3]#df1.head(3),df1.loc[:'c']
#6
df1.loc[:, ['animal', 'age']]#df1[['animal', 'age']],df1.iloc[0:-1,[0,1]]
#7
df1.loc[['d','e','i'], ['animal', 'age']]
#df1.loc[df1.index[[3, 4, 8]], ['animal', 'age']]
#df1.iloc[[3,4,8],[0,1]]
#8
df1[df1['age'] > 3]
#9
df1[df1['age'].isnull()]
#10
df1[(df1['age']>=2) & (df1['age']<=4)]
#df1[df1['age'].between(2, 4)]
#11
df1.loc['f', 'age'] = 1.5
#12
df1['visits'].sum()
#13
df1.loc['k'] = ['dog',5.5, 2, 'no']
#14
df1['animal'].value_counts()

posted @ 2023-12-19 08:27 E_sheep 阅读(42) 评论(0) 编辑收藏举报

会员力量，点亮园子希望

刷新页面返回顶部

E-Sheep