大周末的不休息,继续学习pandas吧,pandas你该这么学,No.7

其实,写文章真的挺难的

每天抽点时间,写写文采飘逸的文章

坚持个几年,成为称霸一方的大佬

坚持就会成功吧~

在这里插入图片描述

最近碰到瓶颈了,
一直找不到好的运营公众号的方式(好想有人指导唉~,对了,橡皮擦有个100多人的小qun,缺划水,话痨管理...)

谁有啥经验呢

给评论两句,帮橡皮擦指个鹿

嘿嘿哈嘿~

在这里插入图片描述

上一篇,我们捣鼓了一下dataframe计算类的函数

这一篇,

我要开始给你嘚啵一下分组与排序了

这两个函数分类

你一定要学会,学会了

就深得pandas精髓了

先说排序

英文sorted

好了,说完了,其他的自己感受吧

O(∩_∩)O哈哈~
在这里插入图片描述

开个玩笑

作为程序布道师,我是一定要讲明白的

看,那是sorted

dataframe里面,有两个排序的函数

一个叫做sort_values,还有一个也叫做 sort_values 额,不对,叫做 sort_index

见到名字

对于已经看过我6篇博客的你来说

瞬间你就知道它们是干啥的了

  • sort_index 按照索引排序
  • sort_values 按照值排序

那我们就先表一表sort_index

先准备一个基本的数据

代码写的好不好,全看你找的数据准不准

df = pd.DataFrame([[4,8,3],[5,6,1],[1,9,2]],columns=['boys','girls','aboys'],index=['class2','class1','class3'])

打印出来,一看就能看到,这个栗子举得真棒

        boys  girls  aboys
class2     4      8      3
class1     5      6      1
class3     1      9      2

注意看,列索引的名字分别是boys,girls,aboys
行索引的名字分别是 class2,class1,class3

顺序都是乱的哦~

下面,使用排序

df = pd.DataFrame([[4,8,3],[5,6,1],[1,9,2]],columns=['boys','girls','aboys'],index=['class2','class1','class3'])


print(df)
print(df.sort_index())
print(df.sort_index(axis=1))
print(df.sort_index(axis=0))

噔噔噔~

看结果

在这里插入图片描述
看到了没,axis这个参数,又起到作用了哦~

在这里插入图片描述

当然,倒序也是比较容易的

就加一个ascending =False 就OK啦

这么简单,就不演示了

sort_index嘚啵完毕,就该sort_values出面了

这个函数,比上面多一个参数by

演示走一波

df = pd.DataFrame([[4,8,3],[5,6,1],[1,9,2]],columns=['boys','girls','aboys'],index=['class2','class1','class3'])


print(df)
print(df.sort_values(by='boys'))
print(df.sort_values(by='girls'))

print(df.sort_values(by='class1',axis=1))

继续上个小图,说明一下

在这里插入图片描述
当然,还可以指定多列,不过不推荐,你可以用下面的代码
微微一测,技术到手

print(df.sort_values(by=['boys','girls']))

排序嘚啵完毕,下面开始分组

分组,组叫做group

在pandas中,这个就属于比较高级的函数的

在这里插入图片描述

GroupBy

官网注释里面给了一句

在这里插入图片描述
注意看,他把by当成了可选参数,

呵呵,官网写错了

在这里插入图片描述

你必须要传递一个by或者level进去

也就是按照谁来分组

但是,问题又来了

你要分组,必须要有意义

什么意思?

比如,我们一直测试的数据

在这里插入图片描述
这个数据,请问,你需要分组

你需要怎么分组?

这个压根不需要分组的好吧

在这里插入图片描述

所以分组前,你必须要明确的看到

恩,这个数据,我需要分组,才能不拉不拉的做一些事情

于是乎,我开始分组

顺手就来

看数据

import pandas as pd

mydict = {
    'class_name':['class1','class1','class2','class2'],
    'student':[20,30,10,20]
}
df = pd.DataFrame(mydict)
print(df)

唉,这个数据就比较好学习分组了
在这里插入图片描述

在某次,某次什么事件中,统计到的每个班的学生人数如下

我接下来,要知道class1班有多少,class2班有多少人

那需要按照班级名字分组啊
也就是
class_name

你看,分组概念出来了吧

print("*"*100)
print(df.groupby(by='class_name'))

一瞅,结果

在这里插入图片描述

嘿嘿,果然看不懂

****************************************************************************************************
<pandas.core.groupby.groupby.DataFrameGroupBy object at 0x000001CB1D07CE80>

其实没啥了,是一个DataFrameGroupBy 对象

分组之后,你需要在使用一个聚合或者计算类的函数

就OK的拉

比如,分组求和

print(df.groupby(by='class_name').sum())
------------------------------------------
            student
class_name         
class1           50
class2           30

比如,分组求平均值

print(df.groupby(by='class_name').mean())

比如,分组求那个啥?

print(df.groupby(by='class_name').count())

还有那个啥

df.groupby(by='class_name').size()

好了,来了一个小重点 small case

这两个乍一看,咦,结果一样唉

注意,细节,细节才能区分大佬与大菜鸟

print("*"*100)
print(type(df.groupby(by='class_name').size()))
print("*"*100)
print(type(df.groupby(by='class_name').count()))

这两返回的类型都不同

****************************************************************************************************
<class 'pandas.core.series.Series'>
****************************************************************************************************
<class 'pandas.core.frame.DataFrame'>

一个是Series,是个是DataFrame

在往深处研究

import pandas as pd

mydict = {
    'class_name':['class1','class1','class2','class2','class3','class4','class4'],
    'student':[20,30,10,20,5,None,12]
}
df = pd.DataFrame(mydict)
print(df)

print("*"*100)
print(df.groupby(by='class_name').size())
print("*"*100)
print(df.groupby(by='class_name').count())

对比结果吧

在这里插入图片描述

拿出笔来,画重点

count不统计none值

漂亮,深得精髓

在这里插入图片描述

OK了,这篇博客到此结果喽

知道你没学会,学会你就是最聪明的

明天我们继续研究groupby的其他用法

到现在为止,简单的部分已经完事了

从NOW开始,剩下的都是难的了

哈哈哈哈

你已经关注我公主号了,对不对

赶紧让朋友也关注啊...

在这里插入图片描述

在这里插入图片描述

posted @ 2019-06-12 10:44  梦想橡皮擦  阅读(685)  评论(0编辑  收藏  举报