Python 数据分析 Pandas

1 Pandas基本介绍

Python Data Analysis Library或pandas是基于Numpy的一种工具，该工具是为了解决数据分析任务而创建的。Pandas纳入了大量库和一些标准的数据模型，提供了高效地操作大型数据集所Pandas操作需要的工具。pandas提供了大量能使我们快速便捷的处理数据的函数和方法。

本篇文章需要的数据集：https://files.cnblogs.com/files/wkfvawl/豆瓣电影数据xlsx.zip
注意：需要数据集扩展名改为xlsx才能使用！

import pandas as pd
import numpy as np

1.1 Pandas的基本数据结构

pandas中有两种常用的基本结构

•Series

一维数组，与Numpy中的一维array类似，二者与Python基本的数据结构List也很相似。Series能保存不同种数据类型，字符串、boolean值、数字等都能保存在Series种。

•DataFrame

二维的表格型数据结构，很多功能与R中的data.frame类似。可以将DataFrame理解为Series的容器。

1.1.1 Pandas库的Series类型

一维Series可以用一维列表初始化

s=pd.Series([1,3,5,np.nan,6,5])
print(s)

0    1.0
1    3.0
2    5.0
3    NaN
4    6.0
5    5.0
dtype: float64

默认的情况下，Series的下标都是数字（可以使用额外参数指定），类型是统一的。

b=pd.Series([1,3,5,np.nan,6,5],index=['a','b','c','d','e','f'])
print(b)

a    1.0
b    3.0
c    5.0
d    NaN
e    6.0
f    5.0
dtype: float64

索引——数据行标签

s.index

RangeIndex(start=0, stop=6, step=1)

b.index

Index(['a', 'b', 'c', 'd', 'e', 'f'], dtype='object')

取值

s.values

array([ 1.,  3.,  5., nan,  6.,  5.])

s[4]

6.0

切片操作

s[2:5]

2    5.03    NaN4    6.0dtype: float64

s[::2]

0    1.02    5.04    6.0dtype: float64

b['b':'f':2]

b    3.0d    NaNf    5.0dtype: float64

索引赋值

s.index.name='索引's

索引0    1.01    3.02    5.03    NaN4    6.05    5.0dtype: float64

s.index=list('abcdef')s

a    1.0b    3.0c    5.0d    NaNe    6.0f    5.0dtype: float64

s['a':'c'] #注意这里不是左闭右开 左右都是闭区间

a    1.0b    3.0c    5.0dtype: float64

1.1.2 Pandas库的DataFrame类型

DataFrame初始化

DataFrame是个二维结构，这里首先构造一组时间序列，作为第一维的下标

date=pd.date_range('20200101',periods=6)#起点20200101 6个日期print(date)

DatetimeIndex(['2020-01-01', '2020-01-02', '2020-01-03', '2020-01-04',               '2020-01-05', '2020-01-06'],              dtype='datetime64[ns]', freq='D')

然后创建一个DataFream结构传入一个二维数组 6行4列

df=pd.DataFrame(np.random.randn(6,4))
df    #默认使用0、1、2.。。作为索引index

	0	1	2	3
0	-1.490125	1.298987	-0.543361	1.221980
1	-0.849709	0.118608	-0.955715	0.144980
2	-0.599598	-0.756037	-1.795249	-0.282495
3	-0.332586	1.750622	-1.493345	-2.100013
4	-0.905893	-0.254791	-1.476728	-0.001651
5	-1.121065	-1.861881	-0.502420	0.523135

df=pd.DataFrame(np.random.randn(6,4),index=date,columns=list('ABCD'))
df    #index参数设置行索引，columns参数设置列索引

	A	B	C	D
2020-01-01	-0.632187	1.388384	-1.141516	0.555858
2020-01-02	-1.033370	0.220262	-0.348647	-1.784751
2020-01-03	2.162017	-0.374234	-0.636569	0.490510
2020-01-04	0.392639	-0.329270	-1.017615	0.153913
2020-01-05	-1.302436	0.436321	-0.186632	-0.179940
2020-01-06	-1.105173	0.068276	-1.644065	0.815162

除了向DataFrame中传入二维数组，我们也可以使用字典传入数据

df1=pd.DataFrame({'A':1,'B':pd.Timestamp('20200101'),'C':pd.Series(1,index=list(range(4)),dtype=float),'D':np.array([3]*4,dtype=int),'E':pd.Categorical(['test','train','test','train']),'F':'abc'})
df1

	A	B	C	D	E	F
0	1	2020-01-01	1.0	3	test	abc
1	1	2020-01-01	1.0	3	train	abc
2	1	2020-01-01	1.0	3	test	abc
3	1	2020-01-01	1.0	3	train	abc

字典的每个key代表一列，其value可以是各种能够转化为Series的对象

与Series要求所有的类型都一致不同，DataFrame只要求每一列数据的格式相同

df1.dtypes

A             int64B    datetime64[ns]C           float64D             int32E          categoryF            objectdtype: object

DataFrame查看数据

头尾数据

head和tail方法可以分别查看最前面几行和最后面几行的数据（默认为5）

df.head()

	A	B	C	D
2020-01-01	-0.632187	1.388384	-1.141516	0.555858
2020-01-02	-1.033370	0.220262	-0.348647	-1.784751
2020-01-03	2.162017	-0.374234	-0.636569	0.490510
2020-01-04	0.392639	-0.329270	-1.017615	0.153913
2020-01-05	-1.302436	0.436321	-0.186632	-0.179940

df.tail(3)  #看最后三行

	A	B	C	D
2020-01-04	0.392639	-0.329270	-1.017615	0.153913
2020-01-05	-1.302436	0.436321	-0.186632	-0.179940
2020-01-06	-1.105173	0.068276	-1.644065	0.815162

下标、列标、数据

下标使用index属性查看

df.index

DatetimeIndex(['2020-01-01', '2020-01-02', '2020-01-03', '2020-01-04',               '2020-01-05', '2020-01-06'],              dtype='datetime64[ns]', freq='D')

列标使用columns属性查看

df.columns

Index(['A', 'B', 'C', 'D'], dtype='object')

数据值使用values查看

df.values

array([[ 0.44397794, -0.56828038,  0.53942245, -1.8088147 ],       [-0.94194603,  1.60065473, -0.16541752, -0.14333282],       [ 0.05818642,  1.2996908 , -0.72258188, -0.25816996],       [ 0.91244089, -1.34726583, -0.82709665, -1.18962492],       [ 0.42712501,  0.01041125, -0.39041139,  1.17227685],       [-0.58428589, -0.42811927,  0.53630517,  1.32747977]])

1.2 Pandas读取数据及数据操作

我们以豆瓣的电影数据作为我们深入了解Pandas的示例

df_mv=pd.read_excel(r'豆瓣电影数据.xlsx') #加 r 防止转义df_mv.head()

	Unnamed: 0	名字	投票人数	类型	产地	上映时间	时长	年代	评分	首映地点
0	0	肖申克的救赎	692795.0	剧情/犯罪	美国	1994-09-10 00:00:00	142	1994	9.6	多伦多电影节
1	1	控方证人	42995.0	剧情/悬疑/犯罪	美国	1957-12-17 00:00:00	116	1957	9.5	美国
2	2	美丽人生	327855.0	剧情/喜剧/爱情	意大利	1997-12-20 00:00:00	116	1997	9.5	意大利
3	3	阿甘正传	580897.0	剧情/爱情	美国	1994-06-23 00:00:00	142	1994	9.4	洛杉矶首映
4	4	霸王别姬	478523.0	剧情/爱情/同性	中国大陆	1993-01-01 00:00:00	171	1993	9.4	香港

1.2.1 行操作

df_mv.iloc[0] #第一行

Unnamed: 0                      1名字                           控方证人投票人数                        42995类型                       剧情/悬疑/犯罪产地                             美国上映时间          1957-12-17 00:00:00时长                            116年代                           1957评分                            9.5首映地点                           美国Name: 1, dtype: object

df_mv.iloc[0:5] #前五行

	Unnamed: 0	名字	投票人数	类型	产地	上映时间	时长	年代	评分	首映地点
0	0	肖申克的救赎	692795.0	剧情/犯罪	美国	1994-09-10 00:00:00	142	1994	9.6	多伦多电影节
1	1	控方证人	42995.0	剧情/悬疑/犯罪	美国	1957-12-17 00:00:00	116	1957	9.5	美国
2	2	美丽人生	327855.0	剧情/喜剧/爱情	意大利	1997-12-20 00:00:00	116	1997	9.5	意大利
3	3	阿甘正传	580897.0	剧情/爱情	美国	1994-06-23 00:00:00	142	1994	9.4	洛杉矶首映
4	4	霸王别姬	478523.0	剧情/爱情/同性	中国大陆	1993-01-01 00:00:00	171	1993	9.4	香港

也可以使用 loc

df_mv.loc[0:5]

	Unnamed: 0	名字	投票人数	类型	产地	上映时间	时长	年代	评分	首映地点
0	0	肖申克的救赎	692795.0	剧情/犯罪	美国	1994-09-10 00:00:00	142	1994	9.6	多伦多电影节
1	1	控方证人	42995.0	剧情/悬疑/犯罪	美国	1957-12-17 00:00:00	116	1957	9.5	美国
2	2	美丽人生	327855.0	剧情/喜剧/爱情	意大利	1997-12-20 00:00:00	116	1997	9.5	意大利
3	3	阿甘正传	580897.0	剧情/爱情	美国	1994-06-23 00:00:00	142	1994	9.4	洛杉矶首映
4	4	霸王别姬	478523.0	剧情/爱情/同性	中国大陆	1993-01-01 00:00:00	171	1993	9.4	香港
5	5	泰坦尼克号	157074.0	剧情/爱情/灾难	美国	2012-04-10 00:00:00	194	2012	9.4	中国大陆

添加一行

dit={'名字':'复仇者联盟3',     '投票人数':123456,     '类型':'剧情/科幻',     '产地':'美国',     '上映时间':'2017-05-04 00:00:00',     '时长':142,     '年代':2017,     '评分':8.7,     '首映地点':'美国'}
s=pd.Series(dit)s.name=38738 #名称 索引号s

名字                   复仇者联盟3投票人数                 123456类型                    剧情/科幻产地                       美国上映时间    2017-05-04 00:00:00时长                      142年代                     2017评分                      8.7首映地点                     美国Name: 38738, dtype: object

df_mv=df_mv.append(s) #append添加df_mv.tail()

	Unnamed: 0	名字	投票人数	类型	产地	上映时间	时长	年代	评分	首映地点
38734	38734.0	1935年	57.0	喜剧/歌舞	美国	1935-03-15 00:00:00	98	1935	7.6	美国
38735	38735.0	血溅画屏	95.0	剧情/悬疑/犯罪/武侠/古装	中国大陆	1905-06-08 00:00:00	91	1986	7.1	美国
38736	38736.0	魔窟中的幻想	51.0	惊悚/恐怖/儿童	中国大陆	1905-06-08 00:00:00	78	1986	8.0	美国
38737	38737.0	列宁格勒围困之星火战役 Блокада: Фильм 2: Ленинградский ме...	32.0	剧情/战争	苏联	1905-05-30 00:00:00	97	1977	6.6	美国
38738	NaN	复仇者联盟3	123456.0	剧情/科幻	美国	2017-05-04 00:00:00	142	2017	8.7	美国

删除一行

df_mv=df_mv.drop([38738])
df_mv.tail()

	Unnamed: 0	名字	投票人数	类型	产地	上映时间	时长	年代	评分	首映地点
38733	38733.0	神学院 S	46.0	Adult	法国	1905-06-05 00:00:00	58	1983	8.6	美国
38734	38734.0	1935年	57.0	喜剧/歌舞	美国	1935-03-15 00:00:00	98	1935	7.6	美国
38735	38735.0	血溅画屏	95.0	剧情/悬疑/犯罪/武侠/古装	中国大陆	1905-06-08 00:00:00	91	1986	7.1	美国
38736	38736.0	魔窟中的幻想	51.0	惊悚/恐怖/儿童	中国大陆	1905-06-08 00:00:00	78	1986	8.0	美国
38737	38737.0	列宁格勒围困之星火战役 Блокада: Фильм 2: Ленинградский ме...	32.0	剧情/战争	苏联	1905-05-30 00:00:00	97	1977	6.6	美国

1.2.2 列操作

df_mv.columns

Index(['Unnamed: 0', '名字', '投票人数', '类型', '产地', '上映时间', '时长', '年代', '评分',       '首映地点'],      dtype='object')

df_mv['名字'][0:5] #名字列的前五行

0    肖申克的救赎1      控方证人2     美丽人生 3      阿甘正传4      霸王别姬Name: 名字, dtype: object

df_mv[['名字','类型']][:5] #取多列 采用list的形式

	名字	类型
0	肖申克的救赎	剧情/犯罪
1	控方证人	剧情/悬疑/犯罪
2	美丽人生	剧情/喜剧/爱情
3	阿甘正传	剧情/爱情
4	霸王别姬	剧情/爱情/同性

增加一列

df_mv['序号']=range(1,len(df_mv)+1)#左闭右开df_mv.head()

	Unnamed: 0	名字	投票人数	类型	产地	上映时间	时长	年代	评分	首映地点	序号
0	0.0	肖申克的救赎	692795.0	剧情/犯罪	美国	1994-09-10 00:00:00	142	1994	9.6	多伦多电影节	1
1	1.0	控方证人	42995.0	剧情/悬疑/犯罪	美国	1957-12-17 00:00:00	116	1957	9.5	美国	2
2	2.0	美丽人生	327855.0	剧情/喜剧/爱情	意大利	1997-12-20 00:00:00	116	1997	9.5	意大利	3
3	3.0	阿甘正传	580897.0	剧情/爱情	美国	1994-06-23 00:00:00	142	1994	9.4	洛杉矶首映	4
4	4.0	霸王别姬	478523.0	剧情/爱情/同性	中国大陆	1993-01-01 00:00:00	171	1993	9.4	香港	5

删除一列

df_mv=df_mv.drop('序号',axis=1) #axis=0 表示行 默认 axis=1 表示列df_mv.head()

	Unnamed: 0	名字	投票人数	类型	产地	上映时间	时长	年代	评分	首映地点
0	0.0	肖申克的救赎	692795.0	剧情/犯罪	美国	1994-09-10 00:00:00	142	1994	9.6	多伦多电影节
1	1.0	控方证人	42995.0	剧情/悬疑/犯罪	美国	1957-12-17 00:00:00	116	1957	9.5	美国
2	2.0	美丽人生	327855.0	剧情/喜剧/爱情	意大利	1997-12-20 00:00:00	116	1997	9.5	意大利
3	3.0	阿甘正传	580897.0	剧情/爱情	美国	1994-06-23 00:00:00	142	1994	9.4	洛杉矶首映
4	4.0	霸王别姬	478523.0	剧情/爱情/同性	中国大陆	1993-01-01 00:00:00	171	1993	9.4	香港

1.2.3 通过标签选择数据

df.loc[[index],[column]]通过标签选择数据

df_mv.loc[[1,3,5,7,9],['名字','评分']]

	名字	评分
1	控方证人	9.5
3	阿甘正传	9.4
5	泰坦尼克号	9.4
7	新世纪福音战士剧场版：Air/真心为你新世紀エヴァンゲリオン劇場版 Ai	9.4
9	这个杀手不太冷	9.4

df_mv.loc[1,'名字']

'控方证人'

条件选择

选取产地为美国的所有电音

df_mv[df_mv['产地']=='美国']#布尔型取数

	Unnamed: 0	名字	投票人数	类型	产地	上映时间	时长	年代	评分	首映地点
0	0.0	肖申克的救赎	692795.0	剧情/犯罪	美国	1994-09-10 00:00:00	142	1994	9.6	多伦多电影节
1	1.0	控方证人	42995.0	剧情/悬疑/犯罪	美国	1957-12-17 00:00:00	116	1957	9.5	美国
3	3.0	阿甘正传	580897.0	剧情/爱情	美国	1994-06-23 00:00:00	142	1994	9.4	洛杉矶首映
5	5.0	泰坦尼克号	157074.0	剧情/爱情/灾难	美国	2012-04-10 00:00:00	194	2012	9.4	中国大陆
6	6.0	辛德勒的名单	306904.0	剧情/历史/战争	美国	1993-11-30 00:00:00	195	1993	9.4	华盛顿首映
...	...	...	...	...	...	...	...	...	...	...
38724	38724.0	跷家的一夜	82.0	喜剧/动作/惊悚/冒险	美国	1987-07-01 00:00:00	102	1987	7.8	美国
38726	38726.0	零下的激情	199.0	剧情/爱情/犯罪	美国	1987-11-06 00:00:00	98	1987	7.4	美国
38728	38728.0	离别秋波	240.0	剧情/爱情/音乐	美国	1986-02-19 00:00:00	90	1986	8.2	美国
38732	38732.0	极乐森林	45.0	纪录片	美国	1986-09-14 00:00:00	90	1986	8.1	美国
38734	38734.0	1935年	57.0	喜剧/歌舞	美国	1935-03-15 00:00:00	98	1935	7.6	美国

11866 rows × 10 columns

df_mv[df_mv['产地']=='中国大陆'][:5] # 前5行

	Unnamed: 0	名字	投票人数	类型	产地	上映时间	时长	年代	评分	首映地点
4	4.0	霸王别姬	478523.0	剧情/爱情/同性	中国大陆	1993-01-01 00:00:00	171	1993	9.4	香港
21	21.0	大闹天宫	74881.0	动画/奇幻	中国大陆	1905-05-14 00:00:00	114	1961	9.2	上集
29	29.0	穹顶之下	51113.0	纪录片	中国大陆	2015-02-28 00:00:00	104	2015	9.2	中国大陆
38	38.0	茶馆	10678.0	剧情/历史	中国大陆	1905-06-04 00:00:00	118	1982	9.2	美国
45	45.0	山水情	10781.0	动画/短片	中国大陆	1905-06-10 00:00:00	19	1988	9.2	美国

选取产地为美国，且评分大于9的电影

df_mv[(df_mv.产地=='美国')&(df_mv.评分>9)].head()

	Unnamed: 0	名字	投票人数	类型	产地	上映时间	时长	年代	评分	首映地点
0	0.0	肖申克的救赎	692795.0	剧情/犯罪	美国	1994-09-10 00:00:00	142	1994	9.6	多伦多电影节
1	1.0	控方证人	42995.0	剧情/悬疑/犯罪	美国	1957-12-17 00:00:00	116	1957	9.5	美国
3	3.0	阿甘正传	580897.0	剧情/爱情	美国	1994-06-23 00:00:00	142	1994	9.4	洛杉矶首映
5	5.0	泰坦尼克号	157074.0	剧情/爱情/灾难	美国	2012-04-10 00:00:00	194	2012	9.4	中国大陆
6	6.0	辛德勒的名单	306904.0	剧情/历史/战争	美国	1993-11-30 00:00:00	195	1993	9.4	华盛顿首映

选取产地为美国或中国大陆，且评分大于9的电影

df_mv[((df_mv.产地=='美国')|(df_mv.产地=='中国大陆'))&(df_mv.评分>9)].head()#用括号划分逻辑

	Unnamed: 0	名字	投票人数	类型	产地	上映时间	时长	年代	评分	首映地点
0	0.0	肖申克的救赎	692795.0	剧情/犯罪	美国	1994-09-10 00:00:00	142	1994	9.6	多伦多电影节
1	1.0	控方证人	42995.0	剧情/悬疑/犯罪	美国	1957-12-17 00:00:00	116	1957	9.5	美国
3	3.0	阿甘正传	580897.0	剧情/爱情	美国	1994-06-23 00:00:00	142	1994	9.4	洛杉矶首映
4	4.0	霸王别姬	478523.0	剧情/爱情/同性	中国大陆	1993-01-01 00:00:00	171	1993	9.4	香港
5	5.0	泰坦尼克号	157074.0	剧情/爱情/灾难	美国	2012-04-10 00:00:00	194	2012	9.4	中国大陆

1.3 数据清洗

1.3.1 缺失值处理

dropna：根据标签中的缺失值进行过滤，删除缺失值

fillna：对缺失值进行填充

isnull：返回一个布尔值对象，判断哪些值是缺失值

notnull：isnull的否定式

判断缺失值

isnull

# 所有电影名称缺失的df_mv[df_mv['名字'].isnull()].head()

	Unnamed: 0	名字	投票人数	类型	产地	上映时间	时长	年代	评分	首映地点
231	231.0	NaN	144.0	纪录片/音乐	韩国	2011-02-02 00:00:00	90	2011	9.7	美国
361	361.0	NaN	80.0	短片	其他	1905-05-17 00:00:00	4	1964	5.7	美国
369	369.0	NaN	5315.0	剧情	日本	2004-07-10 00:00:00	111	2004	7.5	日本
372	372.0	NaN	263.0	短片/音乐	英国	1998-06-30 00:00:00	34	1998	9.2	美国
374	374.0	NaN	47.0	短片	其他	1905-05-17 00:00:00	3	1964	6.7	美国

填充缺失值

填充字符类

df_mv['名字'].fillna('未知电影',inplace=True) #用'未知电影'填充没有名字的电影

df_mv[df_mv['名字']=='未知电影'].head()

	Unnamed: 0	名字	投票人数	类型	产地	上映时间	时长	年代	评分	首映地点
231	231.0	未知电影	144.0	纪录片/音乐	韩国	2011-02-02 00:00:00	90	2011	9.7	美国
361	361.0	未知电影	80.0	短片	其他	1905-05-17 00:00:00	4	1964	5.7	美国
369	369.0	未知电影	5315.0	剧情	日本	2004-07-10 00:00:00	111	2004	7.5	日本
372	372.0	未知电影	263.0	短片/音乐	英国	1998-06-30 00:00:00	34	1998	9.2	美国
374	374.0	未知电影	47.0	短片	其他	1905-05-17 00:00:00	3	1964	6.7	美国

填充数值类

##添加一行，用于实验。此处设置评分为空nandit={'名字':'复仇者联盟3',     '投票人数':123456,     '类型':'剧情/科幻',     '产地':'美国',     '上映时间':'2017-05-04 00:00:00',     '时长':142,     '年代':2017,     '评分':np.nan,     '首映地点':'美国'}s=pd.Series(dit)s.name=38738df_mv=df_mv.append(s)

##判断“评分”为空的df_mv[df_mv['评分'].isnull()].head()

	Unnamed: 0	名字	投票人数	类型	产地	上映时间	时长	年代	评分	首映地点
38738	NaN	复仇者联盟3	123456.0	剧情/科幻	美国	2017-05-04 00:00:00	142	2017	NaN	美国

##填充评分，此处填充 均值df_mv['评分'].fillna(np.mean(df_mv['评分']),inplace=True)df_mv[-1:]

	Unnamed: 0	名字	投票人数	类型	产地	上映时间	时长	年代	评分	首映地点
38738	NaN	复仇者联盟3	123456.0	剧情/科幻	美国	2017-05-04 00:00:00	142	2017	6.935704	美国

删除缺失值

df.dropna(参数)

subset=['列名']：删除该列为空的行

how='all'：删除全为空值的行或列

inplace=True：覆盖之前的数据

axis=0：选择行或列（=0，删除一行；=1，删除一列），默认为0

len(df_mv)

df_mv1=df_mv.dropna()
len(df_mv1)

1.3.2 异常值处理

异常值，即在数据集中存在不合理的值，又称离群点。比如年龄为-1，笔记本电脑重量为1吨等等，都属与异常值的范围。

对于异常值，一般来说数量都会很少，在不影响整体数据分布的情况下，我们直接删除就可以了。

df_mv[(df_mv.投票人数<0)|(df_mv['投票人数']%1!=0)]

	Unnamed: 0	名字	投票人数	类型	产地	上映时间	时长	年代	评分	首映地点
19777	19777.0	皇家大贼皇家大	-80.00	剧情/犯罪	中国香港	1985-05-31 00:00:00	60	1985	6.3	美国
19786	19786.0	日本的垃圾去中国大陆にっぽんの“ゴミ” 大陆へ渡る～中国式リサイクル錬	-80.00	纪录片	日本	1905-06-26 00:00:00	60	2004	7.9	美国
19791	19791.0	女教师女教	8.30	剧情/犯罪	日本	1977-10-29 00:00:00	100	1977	6.6	日本
19797	19797.0	女教徒	-118.00	剧情	法国	1966-05-06 00:00:00	135	1966	7.8	美国
19804	19804.0	女郎漫游仙境ドレミファ娘の血は騒	5.90	喜剧/歌舞	日本	1985-11-03 00:00:00	80	1985	6.7	日本
19820	19820.0	女仆日记	12.87	剧情	法国	2015-04-01 00:00:00	96	2015	5.7	法国
38055	38055.0	逃出亚卡拉	12.87	剧情/动作/惊悚/犯罪	美国	1979-09-20 00:00:00	112	1979	7.8	美国

df_mv=df_mv[df_mv.投票人数>0]
df_mv=df_mv[df_mv['投票人数']%1==0]

1.4 数据保存

数据处理之后，然后将数据重新保存到原文件

df_mv.to_excel('movie_data.xlsx')

2 Pandas操作

import pandas as pdimport numpy as np

以豆瓣电影为例

df=pd.read_excel('movie_data.xlsx')
df=df.drop('Unnamed: 0',axis=1)
df.head()

	Unnamed: 0.1	名字	投票人数	类型	产地	上映时间	时长	年代	评分	首映地点
0	0.0	肖申克的救赎	692795	剧情/犯罪	美国	1994-09-10 00:00:00	142	1994	9.6	多伦多电影节
1	1.0	控方证人	42995	剧情/悬疑/犯罪	美国	1957-12-17 00:00:00	116	1957	9.5	美国
2	2.0	美丽人生	327855	剧情/喜剧/爱情	意大利	1997-12-20 00:00:00	116	1997	9.5	意大利
3	3.0	阿甘正传	580897	剧情/爱情	美国	1994-06-23 00:00:00	142	1994	9.4	洛杉矶首映
4	4.0	霸王别姬	478523	剧情/爱情/同性	中国大陆	1993-01-01 00:00:00	171	1993	9.4	香港

2.1 数据格式转换

在做数据分析的时候，原始数据往往会因为各种各样的原因产生各种数据格式的问题。

数据格式是我们非常需要注意的一点，数据格式错误往往会造成很严重的后果。

并且，很多异常值也是我们经过格式转换之后才会发现，对我们规整数据，清洗数据有很重要的作用。

查看格式

df['投票人数'].dtype

dtype('int64')

格式转化

df['投票人数']=df['投票人数'].astype('int')
df['投票人数'].dtype

dtype('int32')

将年代格式转化为整型

df['年代'].dtype

dtype('O')

df['年代']=df['年代'].astype('int')

---------------------------------------------------------------------------ValueError                                Traceback (most recent call last)<ipython-input-8-7db608df647a> in <module>----> 1 df['年代']=df['年代'].astype('int')


D:\anaconda\lib\site-packages\pandas\core\generic.py in astype(self, dtype, copy, errors)   5696         else:   5697             # else, only a single dtype is given-> 5698             new_data = self._data.astype(dtype=dtype, copy=copy, errors=errors)   5699             return self._constructor(new_data).__finalize__(self)   5700 


D:\anaconda\lib\site-packages\pandas\core\internals\managers.py in astype(self, dtype, copy, errors)    580     581     def astype(self, dtype, copy: bool = False, errors: str = "raise"):--> 582         return self.apply("astype", dtype=dtype, copy=copy, errors=errors)    583     584     def convert(self, **kwargs):


D:\anaconda\lib\site-packages\pandas\core\internals\managers.py in apply(self, f, filter, **kwargs)    440                 applied = b.apply(f, **kwargs)    441             else:--> 442                 applied = getattr(b, f)(**kwargs)    443             result_blocks = _extend_blocks(applied, result_blocks)    444 


D:\anaconda\lib\site-packages\pandas\core\internals\blocks.py in astype(self, dtype, copy, errors)    623             vals1d = values.ravel()    624             try:--> 625                 values = astype_nansafe(vals1d, dtype, copy=True)    626             except (ValueError, TypeError):    627                 # e.g. astype_nansafe can fail on object-dtype of strings


D:\anaconda\lib\site-packages\pandas\core\dtypes\cast.py in astype_nansafe(arr, dtype, copy, skipna)    872         # work around NumPy brokenness, #1987    873         if np.issubdtype(dtype.type, np.integer):--> 874             return lib.astype_intsafe(arr.ravel(), dtype).reshape(arr.shape)    875     876         # if we have a datetime/timedelta array of objects


pandas\_libs\lib.pyx in pandas._libs.lib.astype_intsafe()


ValueError: invalid literal for int() with base 10: '2008\u200e'

通过条件判断找到异常数据

##年代中有异常值 '2008\u200e'，无法正常转化df[df.年代=='2008\u200e']

	Unnamed: 0.1	名字	投票人数	类型	产地	上映时间	时长	年代	评分	首映地点
15205	15205.0	狂蟒惊魂	544	恐怖	中国大陆	2008-04-08 00:00:00	93	2008‎	2.7	美国

df[df.年代=='2008\u200e']['年代'].values

array(['2008\u200e'], dtype=object)

带有Unicode的格式控制字符,从左到右的书写标记

df.loc[15205,'年代']=2008df.loc[15205]

Unnamed: 0.1                  15205名字                             狂蟒惊魂投票人数                            544类型                               恐怖产地                             中国大陆上映时间            2008-04-08 00:00:00时长                               93年代                             2008评分                              2.7首映地点                             美国Name: 15205, dtype: object

df['年代']=df['年代'].astype('int')df['年代'][:5]

0    19941    19572    19973    19944    1993Name: 年代, dtype: int32

将时长转化为整数格式

df['时长']=df['时长'].astype('int')

---------------------------------------------------------------------------ValueError                                Traceback (most recent call last)<ipython-input-15-83bf9b6fa2b3> in <module>----> 1 df['时长']=df['时长'].astype('int')


D:\anaconda\lib\site-packages\pandas\core\generic.py in astype(self, dtype, copy, errors)   5696         else:   5697             # else, only a single dtype is given-> 5698             new_data = self._data.astype(dtype=dtype, copy=copy, errors=errors)   5699             return self._constructor(new_data).__finalize__(self)   5700 


D:\anaconda\lib\site-packages\pandas\core\internals\managers.py in astype(self, dtype, copy, errors)    580     581     def astype(self, dtype, copy: bool = False, errors: str = "raise"):--> 582         return self.apply("astype", dtype=dtype, copy=copy, errors=errors)    583     584     def convert(self, **kwargs):


D:\anaconda\lib\site-packages\pandas\core\internals\managers.py in apply(self, f, filter, **kwargs)    440                 applied = b.apply(f, **kwargs)    441             else:--> 442                 applied = getattr(b, f)(**kwargs)    443             result_blocks = _extend_blocks(applied, result_blocks)    444 


D:\anaconda\lib\site-packages\pandas\core\internals\blocks.py in astype(self, dtype, copy, errors)    623             vals1d = values.ravel()    624             try:--> 625                 values = astype_nansafe(vals1d, dtype, copy=True)    626             except (ValueError, TypeError):    627                 # e.g. astype_nansafe can fail on object-dtype of strings


D:\anaconda\lib\site-packages\pandas\core\dtypes\cast.py in astype_nansafe(arr, dtype, copy, skipna)    872         # work around NumPy brokenness, #1987    873         if np.issubdtype(dtype.type, np.integer):--> 874             return lib.astype_intsafe(arr.ravel(), dtype).reshape(arr.shape)    875     876         # if we have a datetime/timedelta array of objects


pandas\_libs\lib.pyx in pandas._libs.lib.astype_intsafe()


ValueError: invalid literal for int() with base 10: '8U'

df[df.时长=='8U']

	Unnamed: 0.1	名字	投票人数	类型	产地	上映时间	时长	年代	评分	首映地点
31638	31644.0	一个被隔绝的世界	46	纪录片/短片	瑞典	2001-10-25 00:00:00	8U	1948	7.8	美国

df.drop(31638,inplace=True)# inplace=False，默认该删除操作不改变原数据，而是返回一个执行删除操作后的新dataframe；# inplace=True，则会直接在原数据上进行删除操作，删除后无法返回。

df['时长']=df['时长'].astype('int')

---------------------------------------------------------------------------ValueError                                Traceback (most recent call last)<ipython-input-24-83bf9b6fa2b3> in <module>----> 1 df['时长']=df['时长'].astype('int')


D:\anaconda\lib\site-packages\pandas\core\generic.py in astype(self, dtype, copy, errors)   5696         else:   5697             # else, only a single dtype is given-> 5698             new_data = self._data.astype(dtype=dtype, copy=copy, errors=errors)   5699             return self._constructor(new_data).__finalize__(self)   5700 


D:\anaconda\lib\site-packages\pandas\core\internals\managers.py in astype(self, dtype, copy, errors)    580     581     def astype(self, dtype, copy: bool = False, errors: str = "raise"):--> 582         return self.apply("astype", dtype=dtype, copy=copy, errors=errors)    583     584     def convert(self, **kwargs):


D:\anaconda\lib\site-packages\pandas\core\internals\managers.py in apply(self, f, filter, **kwargs)    440                 applied = b.apply(f, **kwargs)    441             else:--> 442                 applied = getattr(b, f)(**kwargs)    443             result_blocks = _extend_blocks(applied, result_blocks)    444 


D:\anaconda\lib\site-packages\pandas\core\internals\blocks.py in astype(self, dtype, copy, errors)    623             vals1d = values.ravel()    624             try:--> 625                 values = astype_nansafe(vals1d, dtype, copy=True)    626             except (ValueError, TypeError):    627                 # e.g. astype_nansafe can fail on object-dtype of strings


D:\anaconda\lib\site-packages\pandas\core\dtypes\cast.py in astype_nansafe(arr, dtype, copy, skipna)    872         # work around NumPy brokenness, #1987    873         if np.issubdtype(dtype.type, np.integer):--> 874             return lib.astype_intsafe(arr.ravel(), dtype).reshape(arr.shape)    875     876         # if we have a datetime/timedelta array of objects


pandas\_libs\lib.pyx in pandas._libs.lib.astype_intsafe()


ValueError: invalid literal for int() with base 10: '12J'

df[df.时长=='12J']

	Unnamed: 0.1	名字	投票人数	类型	产地	上映时间	时长	年代	评分	首映地点
32943	32949.0	渔业危机	41	纪录片	英国	2009-06-19 00:00:00	12J	2008	8.2	USA

df.drop(32943,inplace=True)

df['时长']=df['时长'].astype('int')

df['时长'][:5]

0    1421    1162    1163    1424    171Name: 时长, dtype: int32

2.2 排序

2.2.1 单值排序

默认排序

df[:10]  ##根据index进行排序

	Unnamed: 0.1	名字	投票人数	类型	产地	上映时间	时长	年代	评分	首映地点
0	0.0	肖申克的救赎	692795	剧情/犯罪	美国	1994-09-10 00:00:00	142	1994	9.6	多伦多电影节
1	1.0	控方证人	42995	剧情/悬疑/犯罪	美国	1957-12-17 00:00:00	116	1957	9.5	美国
2	2.0	美丽人生	327855	剧情/喜剧/爱情	意大利	1997-12-20 00:00:00	116	1997	9.5	意大利
3	3.0	阿甘正传	580897	剧情/爱情	美国	1994-06-23 00:00:00	142	1994	9.4	洛杉矶首映
4	4.0	霸王别姬	478523	剧情/爱情/同性	中国大陆	1993-01-01 00:00:00	171	1993	9.4	香港
5	5.0	泰坦尼克号	157074	剧情/爱情/灾难	美国	2012-04-10 00:00:00	194	2012	9.4	中国大陆
6	6.0	辛德勒的名单	306904	剧情/历史/战争	美国	1993-11-30 00:00:00	195	1993	9.4	华盛顿首映
7	7.0	新世纪福音战士剧场版：Air/真心为你新世紀エヴァンゲリオン劇場版 Ai	24355	剧情/动作/科幻/动画/奇幻	日本	1997-07-19 00:00:00	87	1997	9.4	日本
8	8.0	银魂完结篇：直到永远的万事屋劇場版銀魂完結篇万事屋よ	21513	剧情/动画	日本	2013-07-06 00:00:00	110	2013	9.4	日本
9	9.0	这个杀手不太冷	662552	剧情/动作/犯罪	法国	1994-09-14 00:00:00	133	1994	9.4	法国

按照投票人数进行排序

## 默认升序排列df.sort_values(by='投票人数')[:5]

	Unnamed: 0.1	名字	投票人数	类型	产地	上映时间	时长	年代	评分	首映地点
37035	37041.0	魂惊一线	21	惊悚/恐怖	美国	2003-08-21 00:00:00	108	2002	5.3	美国
35589	35595.0	川崎的玫瑰	21	剧情	其他	2009-12-21 00:00:00	100	2009	6.1	美国
1990	1990.0	爱和一颗子弹	21	动作/犯罪	美国	2002-08-30 00:00:00	85	2002	7.0	美国
22869	22875.0	少年邓恩铭	21	剧情/传记	中国大陆	2011-07-01 00:00:00	90	2011	3.8	美国
37267	37273.0	生生舞不息	21	剧情/歌舞	法国	2002-04-12 00:00:00	100	2002	6.8	美国

## 降序排列df.sort_values(by='投票人数',ascending=False)[:5]

	Unnamed: 0.1	名字	投票人数	类型	产地	上映时间	时长	年代	评分	首映地点
0	0.0	肖申克的救赎	692795	剧情/犯罪	美国	1994-09-10 00:00:00	142	1994	9.6	多伦多电影节
9	9.0	这个杀手不太冷	662552	剧情/动作/犯罪	法国	1994-09-14 00:00:00	133	1994	9.4	法国
22	22.0	盗梦空间	642134	剧情/动作/科幻/悬疑/冒险	美国	2010-09-01 00:00:00	148	2010	9.2	中国大陆
3	3.0	阿甘正传	580897	剧情/爱情	美国	1994-06-23 00:00:00	142	1994	9.4	洛杉矶首映
99	99.0	三傻大闹宝莱坞	549808	剧情/喜剧/爱情/歌舞	印度	2011-12-08 00:00:00	171	2009	9.1	中国大陆

按照年代进行排序

df.sort_values(by='年代')[:5]

	Unnamed: 0.1	名字	投票人数	类型	产地	上映时间	时长	年代	评分	首映地点
14048	14048.0	利兹大桥	126	短片	英国	1888-10	60	1888	7.2	美国
1700	1700.0	朗德海花园场景	650	短片	英国	1888-10-14	60	1888	8.7	美国
26164	26170.0	恶作剧	51	短片	美国	1905-03-04 00:00:00	60	1890	4.8	美国
10627	10627.0	可怜的比埃洛	176	喜剧/爱情/动画/短片	法国	1892-10-28	60	1892	7.5	法国
14455	14455.0	迪克森实验音膜	121	短片	美国	1905-03-08 00:00:00	60	1894	7.2	美国

2.2.2 多个值排序

先按照评分降序序，再按照投票人数降序

df.sort_values(by=['评分','投票人数'],ascending=False)[:5]

	名字	投票人数	类型	产地	上映时间	时长	年代	评分	首映地点
9278	平安结祈平安結	208	音乐	日本	2012-02-24 00:00:00	60	2012	9.9	美国
13882	武之舞	128	纪录片	中国大陆	1997-02-01 00:00:00	60	34943	9.9	美国
1110	未知电影	76	科幻/纪录片	美国	1905-06-23 00:00:00	75	2001	9.9	美国
23559	未作回答的问题：伯恩斯坦哈佛六讲	61	纪录片	美国	1905-05-29 00:00:00	60	1973	9.9	美国
35470	未知电影	46	纪录片/音乐	韩国	2013-10-31 00:00:00	90	2013	9.9	韩国

先按照评分降序序，再按照投票人数升序

df.sort_values(by=['评分','投票人数'],ascending=[False,True])[:5]

	名字	投票人数	类型	产地	上映时间	时长	年代	评分	首映地点
25270	索科洛夫：巴黎现场	43	音乐	法国	2002-11-04 00:00:00	127	2002	9.9	美国
35465	未知电影	46	纪录片/音乐	韩国	2013-10-31 00:00:00	90	2013	9.9	韩国
23556	未作回答的问题：伯恩斯坦哈佛六讲	61	纪录片	美国	1905-05-29 00:00:00	60	1973	9.9	美国
1110	未知电影	76	科幻/纪录片	美国	1905-06-23 00:00:00	75	2001	9.9	美国
9278	平安结祈平安結	208	音乐	日本	2012-02-24 00:00:00	60	2012	9.9	美国

2.3基本统计分析

2.3.1 描述性统计

dataframe.describe()：对dataframe中的数值数据进行描述性统计

df.describe()

	Unnamed: 0.1	投票人数	时长	年代	评分
count	38727.000000	38728.000000	38728.000000	38728.000000	38728.000000
mean	19366.615669	6190.442212	89.031424	1998.791753	6.935577
std	11183.251156	26153.495394	83.233344	253.224718	1.270158
min	0.000000	21.000000	1.000000	1888.000000	2.000000
25%	9681.500000	98.000000	60.000000	1990.000000	6.300000
50%	19363.000000	341.000000	92.000000	2005.000000	7.100000
75%	29050.500000	1741.000000	106.000000	2010.000000	7.800000
max	38737.000000	692795.000000	11500.000000	39180.000000	9.900000

通过描述性统计，可以发现一些异常值，很多异常值往往是需要我们逐步去发现的

比如年代的最大值，上映时间的最大值等

df[df.年代>2021]

	Unnamed: 0.1	名字	投票人数	类型	产地	上映时间	时长	年代	评分	首映地点
13882	13882.0	武之舞	128	纪录片	中国大陆	1997-02-01 00:00:00	60	34943	9.9	美国
17115	17115.0	妈妈回来吧-中国打工村的孩子	49	纪录片	日本	2007-04-08 00:00:00	109	39180	8.9	美国

df[df.时长>1000]

	名字	投票人数	类型	产地	上映时间	时长	年代	评分	首映地点
19690	怒海余生	54	剧情/家庭/冒险	美国	1937-09-01 00:00:00	11500	1937	7.9	美国
38730	喧闹村的孩子们	36	家庭	瑞典	1986-12-06 00:00:00	9200	1986	8.7	瑞典

df.drop(df[df.年代>2021].index,inplace=True)df.drop(df[df.时长>1000].index,inplace=True)df.describe()

	Unnamed: 0.1	投票人数	时长	年代	评分
count	38723.000000	38724.000000	38724.000000	38724.000000	38724.000000
mean	19366.307053	6191.074760	88.501704	1996.982776	6.935379
std	11183.355143	26154.772096	37.708162	19.934715	1.270054
min	0.000000	21.000000	1.000000	1888.000000	2.000000
25%	9680.500000	98.000000	60.000000	1990.000000	6.300000
50%	19363.000000	341.000000	92.000000	2005.000000	7.100000
75%	29050.500000	1741.000000	106.000000	2010.000000	7.800000
max	38737.000000	692795.000000	958.000000	2017.000000	9.900000

##删除 行 后，重新分配 索引index 从0到len(df)的整数序列作为新的indexdf.index=range(len(df))

2.3.2 最值

df['投票人数'].max()

df['投票人数'].min()

2.3.3 均值和中值

df['投票人数'].mean()

6190.297004905758

df['投票人数'].median()

341.0

2.3.4 方差和标准差

df['评分'].var()

1.6129445680877672

df['评分'].std()

1.2700175463700363

2.3.5 求和

df['投票人数'].sum()

239750203

2.3.6 相关系数、协方差

## 相关性df[['投票人数','评分']].corr()

	投票人数	评分
投票人数	1.00000	0.12293
评分	0.12293	1.00000

## 协方差df[['投票人数','评分']].cov()

	投票人数	评分
投票人数	6.840721e+08	4083.474416
评分	4.083474e+03	1.613036

2.3.7 计数

统计电影数量

len(df)

## 某列的所有取值df['产地'].unique()

array(['美国', '意大利', '中国大陆', '日本', '法国', '英国', '韩国', '中国香港', '阿根廷', '德国',       '印度', '其他', '加拿大', '波兰', '泰国', '澳大利亚', '西班牙', '俄罗斯', '中国台湾', '荷兰',       '丹麦', '比利时', 'USA', '苏联', '墨西哥', '巴西', '瑞典', '西德'], dtype=object)

len(df['产地'].unique())

产地中包含了一些重复数据，比如美国和USA，德国和西德，俄罗斯和苏联

我们可以通过数据替换的方法将这些相同的国家的电影数据合并一下

df['产地'].replace('USA','美国',inplace=True)df['产地'].replace(['西德','苏联'],['德国','俄罗斯'],inplace=True)len(df['产地'].unique())

计算每一年代电影的数量

df['年代'].value_counts()[:10]

2012    20422013    20012008    19632014    18872010    18862011    18662009    18612007    17112015    15912006    1515Name: 年代, dtype: int64

电影产出前5位的国家或地区

df['产地'].value_counts()[:5]

美国      11978日本       5049中国大陆     3802中国香港     2851法国       2815Name: 产地, dtype: int64

df.to_excel('./movie_data2.xlsx')

2.4 数据透视

Pandas提供了一个数据透视表功能，名为pivot_table。

使用pivot_table的一个挑战是，你需要确保你理解你的数据，并清楚的知道你通过透视表解决了什么问题，虽然pivot_table看起来知识一个简单的函数，但是它能够快速的对数据进行强大的分析。

2.4.1 基础形式

pd.set_option('max_columns',100)  ##设置显示的最大列pd.set_option('max_rows',500)  ##设置显示的最大行

pd.pivot_table(df,index=['年代'])#以年代为索引，统计各个年代数值型变量的均值

	Unnamed: 0.1	投票人数	时长	评分
年代
1888	7874.000000	388.000000	60.000000	7.950000
1890	26170.000000	51.000000	60.000000	4.800000
1892	10627.000000	176.000000	60.000000	7.500000
1894	16198.000000	112.666667	60.000000	6.633333
1895	13011.500000	959.875000	60.000000	7.575000
1896	17808.250000	984.250000	60.000000	7.037500
1897	23881.000000	67.000000	60.000000	6.633333
1898	6247.500000	578.500000	60.000000	7.450000
1899	9307.500000	71.000000	9.500000	6.900000
1900	11274.571429	175.285714	36.714286	7.228571
1901	12790.500000	164.500000	47.250000	7.250000
1902	18419.166667	1934.166667	34.666667	7.483333
1903	14180.562500	295.625000	29.625000	6.968750
1904	21104.750000	195.875000	41.250000	7.212500
1905	22911.200000	332.600000	43.800000	6.820000
1906	9072.571429	189.857143	30.571429	7.342857
1907	13241.800000	213.600000	31.800000	7.020000
1908	18246.833333	258.833333	34.166667	7.150000
1909	26264.200000	58.600000	20.600000	7.560000
1910	19299.600000	105.200000	41.800000	6.940000
1911	29989.000000	240.000000	25.750000	7.375000
1912	15309.800000	152.200000	16.400000	7.920000
1913	13272.500000	66.125000	57.750000	6.862500
1914	22277.230769	104.923077	25.923077	6.473077
1915	23753.550000	314.900000	56.800000	7.260000
1916	16389.750000	613.666667	43.833333	7.758333
1917	17738.583333	124.416667	31.333333	7.075000
1918	20357.583333	357.083333	35.166667	7.200000
1919	20273.900000	179.850000	62.400000	7.490000
1920	15948.571429	636.500000	59.357143	7.492857
1921	19603.727273	729.818182	57.363636	7.750000
1922	16549.863636	767.090909	66.363636	7.804545
1923	20526.000000	426.000000	74.055556	7.883333
1924	21965.714286	371.785714	81.178571	8.053571
1925	20873.080000	1104.280000	84.440000	7.788000
1926	20306.608696	443.608696	80.304348	7.773913
1927	23167.482759	695.275862	87.241379	7.751724
1928	20164.000000	404.825000	71.775000	7.945000
1929	21806.771429	740.542857	69.371429	7.440000
1930	17119.200000	555.080000	74.160000	7.360000
1931	20332.595238	1468.666667	78.523810	7.483333
1932	21639.162162	600.081081	77.540541	7.294595
1933	19557.580000	729.720000	76.360000	7.430000
1934	21156.686275	776.490196	83.196078	7.519608
1935	22901.913043	887.695652	73.673913	7.515217
1936	17327.916667	1465.466667	76.266667	7.635000
1937	19602.061224	1580.224490	85.510204	7.575510
1938	18559.000000	552.000000	85.973684	7.736842
1939	20467.387755	5911.857143	97.387755	7.520408
1940	18823.846154	5548.743590	92.820513	7.571795
1941	21021.872340	1552.808511	89.127660	7.427660
1942	21499.754717	2607.754717	78.264151	7.554717
1943	19654.561404	742.842105	78.456140	7.615789
1944	18782.722222	1007.370370	81.925926	7.538889
1945	21224.959184	989.020408	86.959184	7.673469
1946	21317.355932	1034.457627	85.016949	7.606780
1947	20075.693333	439.400000	87.120000	7.453333
1948	18607.390805	1186.505747	88.206897	7.657471
1949	19984.168539	641.685393	81.988764	7.646067
1950	20810.868421	2235.026316	80.157895	7.655263
1951	19176.860759	956.101266	85.632911	7.636709
1952	18813.333333	1473.540230	81.528736	7.743678
1953	21198.261364	4786.113636	84.170455	7.567045
1954	19617.843137	2180.245098	85.549020	7.702941
1955	19366.400000	1983.739130	83.669565	7.580000
1956	19593.557823	1054.605442	76.408163	7.600000
1957	19392.785047	2973.579439	87.355140	7.652336
1958	21047.393443	886.196721	82.975410	7.536885
1959	21027.093750	1725.070312	90.070312	7.571875
1960	21695.786260	1446.274809	101.312977	7.569466
1961	22059.382353	3186.833333	98.215686	7.744118
1962	19616.174825	1972.118881	91.615385	7.704895
1963	20402.370629	1184.027972	92.020979	7.536364
1964	18507.351648	1107.763736	89.714286	7.523077
1965	19569.687117	1988.184049	90.478528	7.576074
1966	18060.325843	1325.005618	89.589888	7.517978
1967	19930.590909	1237.289773	91.590909	7.484659
1968	20384.831395	1096.220930	91.744186	7.317442
1969	19794.579710	593.111111	98.666667	7.370048
1970	21448.194737	676.789474	96.973684	7.291053
1971	21019.123288	1368.506849	96.315068	7.155708
1972	20177.792271	2299.096618	96.289855	7.268116
1973	20535.586854	800.103286	94.882629	7.250235
1974	19354.318386	1685.789238	95.318386	7.062332
1975	19728.586735	2222.739796	97.566327	7.071429
1976	20508.030043	1340.618026	95.055794	7.107725
1977	20180.447489	961.461187	98.022831	7.150685
1978	21098.412935	1001.820896	94.467662	7.096517
1979	20317.398230	1886.880531	95.929204	7.293805
1980	19292.218750	2407.683036	94.178571	7.186607
1981	19177.890511	1609.062044	93.321168	7.157299
1982	18469.744361	2142.729323	91.984962	7.297368
1983	18943.649819	1541.191336	92.169675	7.310108
1984	19314.238095	2667.173469	90.918367	7.375170
1985	19842.740625	1593.043750	93.659375	7.280312
1986	19617.614198	2828.506173	89.145062	7.256790
1987	19229.551020	3128.775510	88.938776	7.284548
1988	19828.427110	4800.227621	88.859335	7.265729
1989	19622.770992	2994.417303	88.458015	7.210687
1990	19089.674300	4965.587786	91.882952	7.149109
1991	20162.046341	4685.819512	93.370732	7.154634
1992	18846.887356	5486.133333	92.572414	7.223678
1993	19639.725624	8117.759637	95.269841	7.195692
1994	19227.095142	11479.255061	91.344130	7.262348
1995	19625.791411	8132.605317	94.441718	7.289366
1996	19540.963250	5095.883946	95.243714	7.258801
1997	18817.189944	8243.938547	94.970205	7.330168
1998	18846.972270	7431.790295	91.131716	7.238302
1999	18930.995200	7137.049600	92.457600	7.188000
2000	20264.229822	5907.770178	92.191518	7.134063
2001	19453.687198	8489.757246	90.958937	7.110145
2002	19625.634444	6552.593333	91.584444	7.069778
2003	19434.881178	7891.964248	90.558360	7.137750
2004	18899.299559	8587.632599	90.424670	7.031366
2005	18963.065717	6506.110847	92.080760	7.030008
2006	19053.291749	7278.260726	90.144554	6.914719
2007	19183.157218	6253.837522	86.628288	6.875102
2008	19056.878757	6750.996943	85.144167	6.910647
2009	18659.401397	8717.478775	85.932294	6.748952
2010	18807.106045	9576.387593	83.434252	6.770361
2011	18862.079850	8763.110397	84.125938	6.577010
2012	19460.709109	7082.787463	85.099902	6.458374
2013	18999.526237	7603.723138	84.902049	6.392604
2014	19334.110758	7723.302597	85.997880	6.259777
2015	20216.991201	7846.329353	89.859837	6.142238
2016	19927.410853	7176.019380	91.329457	5.868217
2017	NaN	123456.000000	142.000000	6.935704

2.4.2 多个索引 index=['','']

实际上，大多数的pivot_table参数可以通过列表获取多个值

pd.pivot_table(df,index=['年代','产地'])

		Unnamed: 0.1	投票人数	时长	评分
年代	产地
1888	英国	7874.000000	388.000000	60.000000	7.950000
1890	美国	26170.000000	51.000000	60.000000	4.800000
1892	法国	10627.000000	176.000000	60.000000	7.500000
1894	法国	12374.000000	148.000000	60.000000	7.000000
1894	美国	18110.000000	95.000000	60.000000	6.450000
...	...	...	...	...	...
2016	法国	23068.750000	39.000000	93.250000	7.475000
	美国	18957.272727	10563.848485	91.984848	6.540909
	英国	22602.090909	14607.272727	85.545455	7.200000
	韩国	18906.100000	1739.850000	106.100000	5.730000
2017	美国	NaN	123456.000000	142.000000	6.935704

1585 rows × 4 columns

2.4.3 指定需要统计汇总的数据 values

pd.pivot_table(df,index=['年代','产地'],values=['评分'])

		评分
年代	产地
1888	英国	7.950000
1890	美国	4.800000
1892	法国	7.500000
1894	法国	7.000000
1894	美国	6.450000
...	...	...
2016	法国	7.475000
	美国	6.540909
	英国	7.200000
	韩国	5.730000
2017	美国	6.935704

1585 rows × 1 columns

2.4.4 指定函数 aggfunc

pd.pivot_table(df,index=['年代','产地'],values=['投票人数'],aggfunc=np.sum)#投票人数的总计数

		投票人数
年代	产地
1888	英国	776
1890	美国	51
1892	法国	176
1894	法国	148
1894	美国	190
...	...	...
1965	中国台湾	461
	中国大陆	44280
	中国香港	1456
	俄罗斯	1389
	其他	4048

500 rows × 1 columns

通过将“投票人数”和“评分”列进行对应分组，对“产地”实现数据聚合和总结

pd.pivot_table(df,index=['产地'],values=['投票人数','评分'],aggfunc=[np.sum,np.mean])

	sum		mean
	投票人数	评分	投票人数	评分
产地
中国台湾	5237466	4367.200000	8474.864078	7.066667
中国大陆	41435313	23058.000000	10898.293793	6.064703
中国香港	23285389	18457.700000	8167.446159	6.474114
丹麦	394784	1434.700000	1993.858586	7.245960
俄罗斯	486127	3603.500000	1019.134172	7.554507
其他	3053775	13888.200000	1591.336634	7.237207
加拿大	1384765	4868.400000	1915.304288	6.733610
印度	1146271	2453.400000	3210.843137	6.872269
墨西哥	139613	843.400000	1173.218487	7.087395
巴西	357136	733.500000	3536.000000	7.262376
德国	2680983	7428.400000	2597.851744	7.198062
意大利	2502215	5377.300000	3340.740988	7.179306
日本	18000654	36326.000000	3565.191919	7.194692
比利时	170987	1003.300000	1230.122302	7.217986
法国	10213954	20379.000000	3628.402842	7.239432
波兰	159577	1347.000000	881.640884	7.441989
泰国	1564881	1796.100000	5322.724490	6.109184
澳大利亚	1415713	2093.400000	4719.043333	6.978000
瑞典	290077	1423.300000	1510.817708	7.413021
美国	101929660	83208.635704	8509.739522	6.946789
英国	13242919	20780.700000	4796.421224	7.526512
荷兰	144836	1114.500000	934.425806	7.190323
西班牙	1486733	3139.900000	3326.024609	7.024385
阿根廷	258271	843.700000	2226.474138	7.273276
韩国	8761080	8596.400000	6484.885270	6.362990

2.4.5 非数值处理 fillvalue

非数值（NaN）难以处理，如果想移除他们，可以使用 fill_value 将其设置为0

pd.pivot_table(df,index=['产地'],aggfunc=[np.sum,np.mean],fill_value=0)

	sum					mean
	Unnamed: 0.1	年代	投票人数	时长	评分	Unnamed: 0.1	年代	投票人数	时长	评分
产地
中国台湾	11959927	1235388	5237466	53925	4367.200000	19352.632686	1999.009709	8474.864078	87.257282	7.066667
中国大陆	77537941	7621488	41435313	309608	23058.000000	20393.987638	2004.599684	10898.293793	81.432930	6.064703
中国香港	54830747	5676627	23285389	252431	18457.700000	19232.110488	1991.100316	8167.446159	88.541214	6.474114
丹麦	4042735	395820	394784	17444	1434.700000	20417.853535	1999.090909	1993.858586	88.101010	7.245960
俄罗斯	9581404	946797	486127	45753	3603.500000	20086.800839	1984.899371	1019.134172	95.918239	7.554507
其他	38510728	3835622	3053775	167097	13888.200000	20068.122981	1998.760813	1591.336634	87.075039	7.237207
加拿大	14046604	1447780	1384765	57919	4868.400000	19428.221300	2002.461964	1915.304288	80.109267	6.733610
印度	7342014	716133	1146271	43203	2453.400000	20565.865546	2005.974790	3210.843137	121.016807	6.872269
墨西哥	2529161	237145	139613	10929	843.400000	21253.453782	1992.815126	1173.218487	91.840336	7.087395
巴西	2134066	201987	357136	8869	733.500000	21129.366337	1999.871287	3536.000000	87.811881	7.262376
德国	20695017	2059937	2680983	95008	7428.400000	20053.311047	1996.062984	2597.851744	92.062016	7.198062
意大利	15198009	1487142	2502215	77902	5377.300000	20291.066756	1985.503338	3340.740988	104.008011	7.179306
日本	92776242	10097543	18000654	427683	36326.000000	18375.171717	1999.909487	3565.191919	84.706477	7.194692
比利时	2754457	277930	170987	11447	1003.300000	19816.237410	1999.496403	1230.122302	82.352518	7.217986
法国	55059343	5606796	10213954	253073	20379.000000	19559.269272	1991.757016	3628.402842	89.901599	7.239432
波兰	3742447	359652	159577	14613	1347.000000	20676.502762	1987.027624	881.640884	80.734807	7.441989
泰国	5031292	590684	1564881	26002	1796.100000	17113.238095	2009.129252	5322.724490	88.442177	6.109184
澳大利亚	6025504	600896	1415713	25549	2093.400000	20085.013333	2002.986667	4719.043333	85.163333	6.978000
瑞典	3865865	381491	290077	17898	1423.300000	20134.713542	1986.932292	1510.817708	93.218750	7.413021
美国	230843633	23891007	101929660	1070198	83208.635704	19273.911080	1994.573969	8509.739522	89.346969	6.946789
英国	52612699	5512950	13242919	243077	20780.700000	19055.667874	1996.722202	4796.421224	88.039478	7.526512
荷兰	2989646	310199	144836	11685	1114.500000	19288.038710	2001.283871	934.425806	75.387097	7.190323
西班牙	8501520	894710	1486733	40455	3139.900000	19019.060403	2001.588367	3326.024609	90.503356	7.024385
阿根廷	2458212	232468	258271	10638	843.700000	21191.482759	2004.034483	2226.474138	91.706897	7.273276
韩国	24852295	2712969	8761080	134734	8596.400000	18395.481125	2008.119171	6484.885270	99.729090	6.362990

2.4.6 计算总合数据 margins=True

在最后给出一行总和的数据

pd.pivot_table(df,index=['产地'],aggfunc=[np.sum,np.mean],fill_value=0,margins=True)

	sum				mean
	年代	投票人数	时长	评分	年代	投票人数	时长	评分
产地
中国台湾	1235388	5237466	53925	4367.200000	1999.009709	8474.864078	87.257282	7.066667
中国大陆	7621488	41435313	309608	23058.000000	2004.599684	10898.293793	81.432930	6.064703
中国香港	5676627	23285389	252431	18457.700000	1991.100316	8167.446159	88.541214	6.474114
丹麦	395820	394784	17444	1434.700000	1999.090909	1993.858586	88.101010	7.245960
俄罗斯	3006734	3167110	140761	11031.900000	1992.534129	2098.813784	93.280981	7.310736
其他	3837588	3054119	167168	13895.900000	1998.743750	1590.686979	87.066667	7.237448
加拿大	1447780	1384765	57919	4868.400000	2002.461964	1915.304288	80.109267	6.733610
印度	716133	1146271	43203	2453.400000	2005.974790	3210.843137	121.016807	6.872269
墨西哥	237145	139613	10929	843.400000	1992.815126	1173.218487	91.840336	7.087395
巴西	201987	357136	8869	733.500000	1999.871287	3536.000000	87.811881	7.262376
意大利	1487142	2502215	77902	5377.300000	1985.503338	3340.740988	104.008011	7.179306
日本	10101505	18000667	427863	36339.300000	1999.902000	3563.782815	84.708573	7.194476
比利时	277930	170987	11447	1003.300000	1999.496403	1230.122302	82.352518	7.217986
法国	5608811	10213966	253169	20384.700000	1991.765270	3627.118608	89.903764	7.238885
波兰	359652	159577	14613	1347.000000	1987.027624	881.640884	80.734807	7.441989
泰国	590684	1564881	26002	1796.100000	2009.129252	5322.724490	88.442177	6.109184
澳大利亚	600896	1415713	25549	2093.400000	2002.986667	4719.043333	85.163333	6.978000
瑞典	381491	290077	17898	1423.300000	1986.932292	1510.817708	93.218750	7.413021
美国	23892986	101929672	1070310	83216.435704	1994.572669	8509.030136	89.348861	6.946860
英国	5514959	13249562	244005	20789.400000	1996.726647	4797.089790	88.343592	7.526937
荷兰	310199	144836	11685	1114.500000	2001.283871	934.425806	75.387097	7.190323
西班牙	894710	1486733	40455	3139.900000	2001.588367	3326.024609	90.503356	7.024385
阿根廷	232468	258271	10638	843.700000	2004.034483	2226.474138	91.706897	7.273276
韩国	2712969	8761080	134734	8596.400000	2008.119171	6484.885270	99.729090	6.362990
All	77337135	239749731	3428380	268585.635704	1996.982338	6190.764350	88.526868	6.935359

2.4.7 对不同值执行不同函数

可以向aggfunc传递一个字典。不过，这样做有一个副作用，那就是必须将标签做的更加简洁才性。

对各个产地的投票人数求和，对评分求均值

pd.pivot_table(df,index=['产地'],values=['投票人数','评分'],aggfunc={'投票人数':np.sum,'评分':np.mean},fill_value=0)

	投票人数	评分
产地
中国台湾	5237466	7.066667
中国大陆	41435313	6.064703
中国香港	23285389	6.474114
丹麦	394784	7.245960
俄罗斯	486127	7.554507
其他	3053775	7.237207
加拿大	1384765	6.733610
印度	1146271	6.872269
墨西哥	139613	7.087395
巴西	357136	7.262376
德国	2680983	7.198062
意大利	2502215	7.179306
日本	18000654	7.194692
比利时	170987	7.217986
法国	10213954	7.239432
波兰	159577	7.441989
泰国	1564881	6.109184
澳大利亚	1415713	6.978000
瑞典	290077	7.413021
美国	101929660	6.946789
英国	13242919	7.526512
荷兰	144836	7.190323
西班牙	1486733	7.024385
阿根廷	258271	7.273276
韩国	8761080	6.362990

对各个年份的投票人数求和，对评分求均值

pd.pivot_table(df,index=['年代'],values=['投票人数','评分'],aggfunc={'投票人数':np.sum,'评分':np.mean},fill_value=0)

	投票人数	评分
年代
1888	776	7.950000
1890	51	4.800000
1892	176	7.500000
1894	338	6.633333
1895	7679	7.575000
1896	7874	7.037500
1897	201	6.633333
1898	1157	7.450000
1899	142	6.900000
1900	1227	7.228571
1901	658	7.250000
1902	11605	7.483333
1903	4730	6.968750
1904	1567	7.212500
1905	1663	6.820000
1906	1329	7.342857
1907	1068	7.020000
1908	1553	7.150000
1909	293	7.560000
1910	526	6.940000
1911	960	7.375000
1912	761	7.920000
1913	529	6.862500
1914	2728	6.473077
1915	6298	7.260000
1916	7364	7.758333
1917	1493	7.075000
1918	4285	7.200000
1919	3597	7.490000
1920	8911	7.492857
1921	16056	7.750000
1922	16876	7.804545
1923	7668	7.883333
1924	10410	8.053571
1925	27607	7.788000
1926	10203	7.773913
1927	20163	7.751724
1928	16193	7.945000
1929	25919	7.440000
1930	13877	7.360000
1931	61684	7.483333
1932	22203	7.294595
1933	36486	7.430000
1934	39601	7.519608
1935	40834	7.515217
1936	87928	7.635000
1937	77431	7.575510
1938	20976	7.736842
1939	289681	7.520408
1940	216401	7.571795
1941	72982	7.427660
1942	138211	7.554717
1943	42342	7.615789
1944	54398	7.538889
1945	48462	7.673469
1946	61033	7.606780
1947	32955	7.453333
1948	103226	7.657471
1949	57110	7.646067
1950	169862	7.655263
1951	75532	7.636709
1952	128198	7.743678
1953	421178	7.567045
1954	222385	7.702941
1955	228130	7.580000
1956	155027	7.600000
1957	318173	7.652336
1958	108116	7.536885
1959	220809	7.571875
1960	189462	7.569466
1961	325057	7.744118
1962	282013	7.704895
1963	169316	7.536364
1964	201613	7.523077
1965	324074	7.576074
1966	235851	7.517978
1967	217763	7.484659
1968	188550	7.317442
1969	122774	7.370048
1970	128590	7.291053
1971	299703	7.155708
1972	475913	7.268116
1973	170422	7.250235
1974	375931	7.062332
1975	435657	7.071429
1976	312364	7.107725
1977	210560	7.150685
1978	201366	7.096517
1979	426435	7.293805
1980	539321	7.186607
1981	440883	7.157299
1982	569966	7.297368
1983	426910	7.310108
1984	784149	7.375170
1985	509774	7.280312
1986	916436	7.256790
1987	1073170	7.284548
1988	1876889	7.265729
1989	1176806	7.210687
1990	1951476	7.149109
1991	1921186	7.154634
1992	2386468	7.223678
1993	3579932	7.195692
1994	5670752	7.262348
1995	3976844	7.289366
1996	2634572	7.258801
1997	4426995	7.330168
1998	4288143	7.238302
1999	4460656	7.188000
2000	4318580	7.134063
2001	7029519	7.110145
2002	5897334	7.069778
2003	7505258	7.137750
2004	9746963	7.031366
2005	8217218	7.030008
2006	11026565	6.914719
2007	10700316	6.875102
2008	13252207	6.910647
2009	16223228	6.748952
2010	18061067	6.770361
2011	16351964	6.577010
2012	14463052	6.458374
2013	15215050	6.392604
2014	14573872	6.259777
2015	12483510	6.142238
2016	1851413	5.868217
2017	123456	6.935704

1994年被誉为电影史上伟大的一年，但是通过数据我们可以发现，1994年的平均分并不是很高。1924年的电影平均分最高。

2.4.8 透视表过滤

table = pd.pivot_table(df,index=['年代'],values=['投票人数','评分'],aggfunc={'投票人数':np.sum,'评分':np.mean},fill_value=0)table[table.index==1994]

	投票人数	评分
年代
1994	5670752	7.262348

table.sort_values('评分',ascending=False)[:10]

	投票人数	评分
年代
1924	10410	8.053571
1888	776	7.950000
1928	16193	7.945000
1912	761	7.920000
1923	7668	7.883333
1922	16876	7.804545
1925	27607	7.788000
1926	10203	7.773913
1916	7364	7.758333
1927	20163	7.751724

2.4.9 按照多个索引来进行汇总

pd.pivot_table(df,index=['产地','年代'],values=['投票人数','评分'],aggfunc={'投票人数':np.sum,'评分':np.mean},fill_value=0)

		投票人数	评分
产地	年代
中国台湾	1963	121	6.400000
	1965	461	6.800000
	1966	51	7.900000
	1967	4444	8.000000
	1968	178	7.400000
...	...	...	...
韩国	2012	610829	6.064151
	2013	1130983	6.098198
	2014	453152	5.650833
	2015	349808	5.423853
	2016	34797	5.730000

1585 rows × 2 columns

3 Pandas进阶

import pandas as pd
import numpy as np

#一个参数 默认起点0，步长为1 输出：[0 1 2]
a = np.arange(3)

#两个参数 默认步长为1 输出[3 4 5 6 7 8]
a = np.arange(3,9)

#三个参数 起点为0，终点为3，步长为0.1 输出[ 0.   0.1  0.2  0.3  0.4  0.5  0.6  0.7  0.8  0.9  1.   1.1  1.2  1.3  1.4 1.5  1.6  1.7  1.8  1.9  2.   2.1  2.2  2.3  2.4  2.5  2.6  2.7  2.8  2.9]
a = np.arange(0, 3, 0.1)

3.1 数据重塑和轴向旋转

（1）层次化索引

层次化索引是pandas的一项重要功能，他能使我们再一个轴上拥有多个索引

Series的层次化索引

两层索引

s=pd.Series(np.arange(1,10),index=[['a','a','a','b','b','c','c','d','d'],[1,2,3,1,2,3,1,2,3]])
s
#有点类似合并单元格？

a  1    1   2    2   3    3b  1    4   2    5c  3    6   1    7d  2    8   3    9dtype: int32

s.index

MultiIndex([('a', 1),            ('a', 2),            ('a', 3),            ('b', 1),            ('b', 2),            ('c', 3),            ('c', 1),            ('d', 2),            ('d', 3)],           )

s['a']# 取外层索引

1    12    23    3dtype: int32

s['a':'c']# 切片 a到c

a  1    1   2    2   3    3b  1    4   2    5c  3    6   1    7dtype: int32

s[:,1]# 取内存索引

a    1b    4c    7dtype: int32

通过unstack方法可以将Series变成一个DataFrame

unstack不堆叠转换成表格

s.unstack()

	1	2	3
a	1.0	2.0	3.0
b	4.0	5.0	NaN
c	7.0	NaN	6.0
d	NaN	8.0	9.0

s.unstack().stack()

a  1    1.0   2    2.0   3    3.0b  1    4.0   2    5.0c  1    7.0   3    6.0d  2    8.0   3    9.0dtype: float64

（2）DataFrame的层次化索引

对于DataFrame来说，行和列都能够进行层次化索引。

data=pd.DataFrame(np.arange(12).reshape(4,3))data

	0	1	2
0	0	1	2
1	3	4	5
2	6	7	8
3	9	10	11

data=pd.DataFrame(np.arange(12).reshape(4,3),index=[['a','a','b','b'],[1,2,1,2]])data

		0	1	2
a	1	0	1	2
a	2	3	4	5
b	1	6	7	8
b	2	9	10	11

data=pd.DataFrame(np.arange(12).reshape(4,3),index=[['a','a','b','b'],[1,2,1,2]],columns=[['A','A','B'],['Z','X','C']])data# 有四个索引 决定一个值 二维数据变成了四维数据

		A		B
		Z	X	C
a	1	0	1	2
a	2	3	4	5
b	1	6	7	8
b	2	9	10	11

选取列

data['A']

		Z	X
a	1	0	1
a	2	3	4
b	1	6	7
b	2	9	10

设置索引名称

data.index.names=['row1','row2']data

		A		B
		Z	X	C
row1	row2
a	1	0	1	2
a	2	3	4	5
b	1	6	7	8
b	2	9	10	11

设置列级别名称

data.columns.names=['column1','column2']data

	column1	A		B
	column2	Z	X	C
row1	row2
a	1	0	1	2
a	2	3	4	5
b	1	6	7	8
b	2	9	10	11

行顺序调整 row1，row2交换顺序

data.swaplevel('row1','row2')

	column1	A		B
	column2	Z	X	C
row2	row1
1	a	0	1	2
2	a	3	4	5
1	b	6	7	8
2	b	9	10	11

层次化——电影数据示列

数据导入

df=pd.read_excel('movie_data2.xlsx')df.head()

	Unnamed: 0	Unnamed: 0.1	名字	投票人数	类型	产地	上映时间	时长	年代	评分	首映地点
0	0	0.0	肖申克的救赎	692795	剧情/犯罪	美国	1994-09-10 00:00:00	142	1994	9.6	多伦多电影节
1	1	1.0	控方证人	42995	剧情/悬疑/犯罪	美国	1957-12-17 00:00:00	116	1957	9.5	美国
2	2	2.0	美丽人生	327855	剧情/喜剧/爱情	意大利	1997-12-20 00:00:00	116	1997	9.5	意大利
3	3	3.0	阿甘正传	580897	剧情/爱情	美国	1994-06-23 00:00:00	142	1994	9.4	洛杉矶首映
4	4	4.0	霸王别姬	478523	剧情/爱情/同性	中国大陆	1993-01-01 00:00:00	171	1993	9.4	香港

df.index

RangeIndex(start=0, stop=38724, step=1)

set_index：可以把列变成索引

reset_index：把索引变成列

把产地和年代同时设置成索引，产地是外层索引，年代是内层索引

df=df.set_index(['产地','年代'])df.head()

		Unnamed: 0	Unnamed: 0.1	名字	投票人数	类型	上映时间	时长	评分	首映地点
产地	年代
美国	1994	0	0.0	肖申克的救赎	692795	剧情/犯罪	1994-09-10 00:00:00	142	9.6	多伦多电影节
美国	1957	1	1.0	控方证人	42995	剧情/悬疑/犯罪	1957-12-17 00:00:00	116	9.5	美国
意大利	1997	2	2.0	美丽人生	327855	剧情/喜剧/爱情	1997-12-20 00:00:00	116	9.5	意大利
美国	1994	3	3.0	阿甘正传	580897	剧情/爱情	1994-06-23 00:00:00	142	9.4	洛杉矶首映
中国大陆	1993	4	4.0	霸王别姬	478523	剧情/爱情/同性	1993-01-01 00:00:00	171	9.4	香港

每一个索引都是一个元组

df.index[0]

('美国', 1994)

获取所有的美国电影，由于产地信息已经变成了索引，因此可以用loc方法

df.loc['美国'].head()

	Unnamed: 0	Unnamed: 0.1	名字	投票人数	类型	上映时间	时长	评分	首映地点
年代
1994	0	0.0	肖申克的救赎	692795	剧情/犯罪	1994-09-10 00:00:00	142	9.6	多伦多电影节
1957	1	1.0	控方证人	42995	剧情/悬疑/犯罪	1957-12-17 00:00:00	116	9.5	美国
1994	3	3.0	阿甘正传	580897	剧情/爱情	1994-06-23 00:00:00	142	9.4	洛杉矶首映
2012	5	5.0	泰坦尼克号	157074	剧情/爱情/灾难	2012-04-10 00:00:00	194	9.4	中国大陆
1993	6	6.0	辛德勒的名单	306904	剧情/历史/战争	1993-11-30 00:00:00	195	9.4	华盛顿首映

此时的索引已经变成了年代

这样做最大的好处就是我们可以简化很多的筛选环节

每一个索引是一个元组

索引交换 swaplevel

df=df.swaplevel('产地','年代')df.head()

		Unnamed: 0	Unnamed: 0.1	名字	投票人数	类型	上映时间	时长	评分	首映地点
年代	产地
1994	美国	0	0.0	肖申克的救赎	692795	剧情/犯罪	1994-09-10 00:00:00	142	9.6	多伦多电影节
1957	美国	1	1.0	控方证人	42995	剧情/悬疑/犯罪	1957-12-17 00:00:00	116	9.5	美国
1997	意大利	2	2.0	美丽人生	327855	剧情/喜剧/爱情	1997-12-20 00:00:00	116	9.5	意大利
1994	美国	3	3.0	阿甘正传	580897	剧情/爱情	1994-06-23 00:00:00	142	9.4	洛杉矶首映
1993	中国大陆	4	4.0	霸王别姬	478523	剧情/爱情/同性	1993-01-01 00:00:00	171	9.4	香港

df.loc[1994]#此时产地成了索引

	Unnamed: 0	Unnamed: 0.1	名字	投票人数	类型	上映时间	时长	评分	首映地点
产地
美国	0	0.0	肖申克的救赎	692795	剧情/犯罪	1994-09-10 00:00:00	142	9.6	多伦多电影节
美国	3	3.0	阿甘正传	580897	剧情/爱情	1994-06-23 00:00:00	142	9.4	洛杉矶首映
法国	9	9.0	这个杀手不太冷	662552	剧情/动作/犯罪	1994-09-14 00:00:00	133	9.4	法国
美国	314	314.0	34街的	768	剧情/家庭/奇幻	1994-12-23 00:00:00	114	7.9	美国
中国大陆	402	402.0	活着	202794	剧情/家庭	1994-05-18 00:00:00	132	9.0	法国
...	...	...	...	...	...	...	...	...	...
美国	38203	38217.0	鬼精灵2：恐怖	60	喜剧/恐怖/奇幻	1994-04-08 00:00:00	85	5.8	美国
英国	38333	38347.0	黑色第16	44	剧情/惊悚	1996-02-01 00:00:00	106	6.8	美国
日本	38677	38691.0	蜡笔小新之布里布里王国的秘密宝藏クレヨンしんちゃんブリブリ王国の	2142	动画	1994-04-23 00:00:00	94	7.7	日本
日本	38679	38693.0	龙珠Z剧场版10：两人面临危机! 超战士难以成眠ドラゴンボール Z 劇場版：危険なふたり！	579	动画	1994-03-12 00:00:00	53	7.2	美国
中国香港	38680	38694.0	重案实录之惊天械劫案重案實錄之驚天械劫	90	动作/犯罪	1905-06-16 00:00:00	114	7.3	美国

494 rows × 9 columns

取消层次化索引也就是将索引变成了列

df=df.reset_index()

df.head()

	年代	产地	Unnamed: 0	Unnamed: 0.1	名字	投票人数	类型	上映时间	时长	评分	首映地点
0	1994	美国	0	0.0	肖申克的救赎	692795	剧情/犯罪	1994-09-10 00:00:00	142	9.6	多伦多电影节
1	1957	美国	1	1.0	控方证人	42995	剧情/悬疑/犯罪	1957-12-17 00:00:00	116	9.5	美国
2	1997	意大利	2	2.0	美丽人生	327855	剧情/喜剧/爱情	1997-12-20 00:00:00	116	9.5	意大利
3	1994	美国	3	3.0	阿甘正传	580897	剧情/爱情	1994-06-23 00:00:00	142	9.4	洛杉矶首映
4	1993	中国大陆	4	4.0	霸王别姬	478523	剧情/爱情/同性	1993-01-01 00:00:00	171	9.4	香港

（3）数据旋转

行列转化

data=df[:5]#先取前五行data

	年代	产地	Unnamed: 0	Unnamed: 0.1	名字	投票人数	类型	上映时间	时长	评分	首映地点
0	1994	美国	0	0.0	肖申克的救赎	692795	剧情/犯罪	1994-09-10 00:00:00	142	9.6	多伦多电影节
1	1957	美国	1	1.0	控方证人	42995	剧情/悬疑/犯罪	1957-12-17 00:00:00	116	9.5	美国
2	1997	意大利	2	2.0	美丽人生	327855	剧情/喜剧/爱情	1997-12-20 00:00:00	116	9.5	意大利
3	1994	美国	3	3.0	阿甘正传	580897	剧情/爱情	1994-06-23 00:00:00	142	9.4	洛杉矶首映
4	1993	中国大陆	4	4.0	霸王别姬	478523	剧情/爱情/同性	1993-01-01 00:00:00	171	9.4	香港

T 可以直接让数据的行和列进行交换

data.T

	0	1	2	3	4
年代	1994	1957	1997	1994	1993
产地	美国	美国	意大利	美国	中国大陆
Unnamed: 0	0	1	2	3	4
Unnamed: 0.1	0	1	2	3	4
名字	肖申克的救赎	控方证人	美丽人生	阿甘正传	霸王别姬
投票人数	692795	42995	327855	580897	478523
类型	剧情/犯罪	剧情/悬疑/犯罪	剧情/喜剧/爱情	剧情/爱情	剧情/爱情/同性
上映时间	1994-09-10 00:00:00	1957-12-17 00:00:00	1997-12-20 00:00:00	1994-06-23 00:00:00	1993-01-01 00:00:00
时长	142	116	116	142	171
评分	9.6	9.5	9.5	9.4	9.4
首映地点	多伦多电影节	美国	意大利	洛杉矶首映	香港

dataframe也可以使用stack和unstack，转化为层次索引的Series

data.stack()

0  年代                             1994   产地                               美国   Unnamed: 0                        0   Unnamed: 0.1                      0   名字                           肖申克的救赎   投票人数                         692795   类型                            剧情/犯罪   上映时间            1994-09-10 00:00:00   时长                              142   评分                              9.6   首映地点                         多伦多电影节1  年代                             1957   产地                               美国   Unnamed: 0                        1   Unnamed: 0.1                      1   名字                             控方证人   投票人数                          42995   类型                         剧情/悬疑/犯罪   上映时间            1957-12-17 00:00:00   时长                              116   评分                              9.5   首映地点                             美国2  年代                             1997   产地                              意大利   Unnamed: 0                        2   Unnamed: 0.1                      2   名字                            美丽人生    投票人数                         327855   类型                         剧情/喜剧/爱情   上映时间            1997-12-20 00:00:00   时长                              116   评分                              9.5   首映地点                            意大利3  年代                             1994   产地                               美国   Unnamed: 0                        3   Unnamed: 0.1                      3   名字                             阿甘正传   投票人数                         580897   类型                            剧情/爱情   上映时间            1994-06-23 00:00:00   时长                              142   评分                              9.4   首映地点                          洛杉矶首映4  年代                             1993   产地                             中国大陆   Unnamed: 0                        4   Unnamed: 0.1                      4   名字                             霸王别姬   投票人数                         478523   类型                         剧情/爱情/同性   上映时间            1993-01-01 00:00:00   时长                              171   评分                              9.4   首映地点                             香港dtype: object

data.stack().unstack()

	年代	产地	Unnamed: 0	Unnamed: 0.1	名字	投票人数	类型	上映时间	时长	评分	首映地点
0	1994	美国	0	0	肖申克的救赎	692795	剧情/犯罪	1994-09-10	142	9.6	多伦多电影节
1	1957	美国	1	1	控方证人	42995	剧情/悬疑/犯罪	1957-12-17	116	9.5	美国
2	1997	意大利	2	2	美丽人生	327855	剧情/喜剧/爱情	1997-12-20	116	9.5	意大利
3	1994	美国	3	3	阿甘正传	580897	剧情/爱情	1994-06-23	142	9.4	洛杉矶首映
4	1993	中国大陆	4	4	霸王别姬	478523	剧情/爱情/同性	1993-01-01	171	9.4	香港

3.2 数据分组、分组运算

GroupBy技术：实现数据的分组，和分组运算，作用类似于数据透视表

按照电影产地进行分组

先定义一个分组变量group

group=df.groupby(df['产地'])

group

<pandas.core.groupby.generic.DataFrameGroupBy object at 0x000001F36ED3CC70>

可以计算分组后的各个统计量

group.mean().head()

	年代	Unnamed: 0	Unnamed: 0.1	投票人数	时长	评分
产地
中国台湾	1999.009709	19347.205502	19352.632686	8474.864078	87.257282	7.066667
中国大陆	2004.599684	20388.198843	20393.987638	10898.293793	81.432930	6.064703
中国香港	1991.100316	19226.836198	19232.110488	8167.446159	88.541214	6.474114
丹麦	1999.090909	20412.055556	20417.853535	1993.858586	88.101010	7.245960
俄罗斯	1984.899371	20081.157233	20086.800839	1019.134172	95.918239	7.554507

计算每年的平均评分

df['评分'].groupby(df['年代']).mean().head()

年代1888    7.9500001890    4.8000001892    7.5000001894    6.6333331895    7.575000Name: 评分, dtype: float64

只会对数值变量进行分组运算

#对年代求平均数、求和并没有什么意义，这里将年代转成string类型df['年代']=df['年代'].astype('str')

df.groupby(df['产地']).mean().head()# 这里对年代就没有均值的求取了

	Unnamed: 0	Unnamed: 0.1	投票人数	时长	评分
产地
中国台湾	19347.205502	19352.632686	8474.864078	87.257282	7.066667
中国大陆	20388.198843	20393.987638	10898.293793	81.432930	6.064703
中国香港	19226.836198	19232.110488	8167.446159	88.541214	6.474114
丹麦	20412.055556	20417.853535	1993.858586	88.101010	7.245960
俄罗斯	20081.157233	20086.800839	1019.134172	95.918239	7.554507

我们也可以传入多个分组变量

df.groupby([df['产地'],df['年代']]).mean()

		Unnamed: 0	Unnamed: 0.1	投票人数	时长	评分
产地	年代
中国台湾	1963	14805.000000	14806.000000	121.000000	113.000000	6.400000
	1965	30276.000000	30285.000000	153.666667	105.000000	6.800000
	1966	26299.000000	26308.000000	51.000000	60.000000	7.900000
	1967	16605.000000	16606.000000	4444.000000	112.000000	8.000000
	1968	21276.500000	21285.500000	89.000000	83.000000	7.400000
...	...	...	...	...	...	...
韩国	2012	17576.207547	17580.452830	5762.537736	100.669811	6.064151
	2013	18953.117117	18958.252252	10189.036036	96.504505	6.098198
	2014	19881.700000	19887.200000	3776.266667	98.666667	5.650833
	2015	19036.128440	19040.908257	3209.247706	100.266055	5.423853
	2016	18901.350000	18906.100000	1739.850000	106.100000	5.730000

1585 rows × 5 columns

获得每个地区，每一年的电影的评分的均值

df['评分'].groupby([df['产地'],df['年代']]).mean()

产地    年代  中国台湾  1963    6.400000      1965    6.800000      1966    7.900000      1967    8.000000      1968    7.400000                ...   韩国    2012    6.064151      2013    6.098198      2014    5.650833      2015    5.423853      2016    5.730000Name: 评分, Length: 1511, dtype: float64

Series通过unstack方法转化为dataframe——会产生缺失值

df['评分'].groupby([df['产地'],df['年代']]).mean().unstack().head()

年代	1888	1890	1892	1894	1895	1896	1897	1898	1899	1900	...	2008	2009	2010	2011	2012	2013	2014	2015	2016	2017
产地
中国台湾	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	...	7.420000	7.100000	7.053846	7.231818	6.556098	7.076471	6.522222	6.576000	NaN	NaN
中国大陆	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	...	6.589726	6.536628	6.357831	5.824606	5.727187	5.316667	4.963757	4.969189	4.712000	NaN
中国香港	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	...	6.476786	6.442553	6.245455	5.971053	6.110526	6.105714	5.616667	5.589189	5.390909	NaN
丹麦	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	...	7.050000	7.118182	7.362500	7.016667	7.418750	6.555556	7.120000	7.166667	7.000000	NaN
俄罗斯	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	...	6.741667	6.278571	6.858824	7.040000	6.572727	6.875000	7.175000	7.342857	NaN	NaN

5 rows × 127 columns

3.3 离散化处理

再实际的数据分析项目中，对有的数据属性，我们往往并不关注数据的绝对取值，只关注它所处的区间或等级。

比如我们可以把评分9分及以上定义为A，7-9分为B，5-7分为C，3-5分为D，小于3分的为E。

离散化也可以称为分组、区间化

Pandas为我们提供了方便的函数cut()：

pd.cut (x, bins, right=True, labels=None, retbins=False, precision=3, include_lowest=False)

参数：

x：需要离散化的数组、Series、DataFrame对象

bins：分组的依据

right=True：默认包括右端点

include_lowest=False：默认不包括左端点

labels：是否要用标记替换分组

retbins：返回x中对应的bins的列表

precision：精度

df['评分等级']=pd.cut(df['评分'],[0,3,5,7,9,10],labels=['E','D','C','B','A'])df

	年代	产地	Unnamed: 0	Unnamed: 0.1	名字	投票人数	类型	上映时间	时长	评分	首映地点	评分等级
0	1994	美国	0	0.0	肖申克的救赎	692795	剧情/犯罪	1994-09-10 00:00:00	142	9.600000	多伦多电影节	A
1	1957	美国	1	1.0	控方证人	42995	剧情/悬疑/犯罪	1957-12-17 00:00:00	116	9.500000	美国	A
2	1997	意大利	2	2.0	美丽人生	327855	剧情/喜剧/爱情	1997-12-20 00:00:00	116	9.500000	意大利	A
3	1994	美国	3	3.0	阿甘正传	580897	剧情/爱情	1994-06-23 00:00:00	142	9.400000	洛杉矶首映	A
4	1993	中国大陆	4	4.0	霸王别姬	478523	剧情/爱情/同性	1993-01-01 00:00:00	171	9.400000	香港	A
...	...	...	...	...	...	...	...	...	...	...	...	...
38719	1935	美国	38719	38734.0	1935年	57	喜剧/歌舞	1935-03-15 00:00:00	98	7.600000	美国	B
38720	1986	中国大陆	38720	38735.0	血溅画屏	95	剧情/悬疑/犯罪/武侠/古装	1905-06-08 00:00:00	91	7.100000	美国	B
38721	1986	中国大陆	38721	38736.0	魔窟中的幻想	51	惊悚/恐怖/儿童	1905-06-08 00:00:00	78	8.000000	美国	B
38722	1977	俄罗斯	38722	38737.0	列宁格勒围困之星火战役 Блокада: Фильм 2: Ленинградский ме...	32	剧情/战争	1905-05-30 00:00:00	97	6.600000	美国	C
38723	2017	美国	38723	NaN	复仇者联盟3	123456	剧情/科幻	2017-05-04 00:00:00	142	6.935704	美国	C

38724 rows × 12 columns

根据投票人数来刻画电影的热门

投票人数越多，热门程度越高

使用 np.percentile 进行分位数计算
a = range(1,101)

求取a数列第90%分位的数值

np.percentile(a, 90)

90.10000000000001

bins=np.percentile(df['投票人数'],[0,20,40,60,80,100])

df['热门程度']=pd.cut(df['投票人数'],bins,labels=['E','D','C','B','A'])

df

	年代	产地	Unnamed: 0	Unnamed: 0.1	名字	投票人数	类型	上映时间	时长	评分	首映地点	评分等级	热门程度
0	1994	美国	0	0.0	肖申克的救赎	692795	剧情/犯罪	1994-09-10 00:00:00	142	9.600000	多伦多电影节	A	A
1	1957	美国	1	1.0	控方证人	42995	剧情/悬疑/犯罪	1957-12-17 00:00:00	116	9.500000	美国	A	A
2	1997	意大利	2	2.0	美丽人生	327855	剧情/喜剧/爱情	1997-12-20 00:00:00	116	9.500000	意大利	A	A
3	1994	美国	3	3.0	阿甘正传	580897	剧情/爱情	1994-06-23 00:00:00	142	9.400000	洛杉矶首映	A	A
4	1993	中国大陆	4	4.0	霸王别姬	478523	剧情/爱情/同性	1993-01-01 00:00:00	171	9.400000	香港	A	A
...	...	...	...	...	...	...	...	...	...	...	...	...	...
38719	1935	美国	38719	38734.0	1935年	57	喜剧/歌舞	1935-03-15 00:00:00	98	7.600000	美国	B	E
38720	1986	中国大陆	38720	38735.0	血溅画屏	95	剧情/悬疑/犯罪/武侠/古装	1905-06-08 00:00:00	91	7.100000	美国	B	D
38721	1986	中国大陆	38721	38736.0	魔窟中的幻想	51	惊悚/恐怖/儿童	1905-06-08 00:00:00	78	8.000000	美国	B	E
38722	1977	俄罗斯	38722	38737.0	列宁格勒围困之星火战役 Блокада: Фильм 2: Ленинградский ме...	32	剧情/战争	1905-05-30 00:00:00	97	6.600000	美国	C	E
38723	2017	美国	38723	NaN	复仇者联盟3	123456	剧情/科幻	2017-05-04 00:00:00	142	6.935704	美国	C	A

38724 rows × 13 columns

大烂片：投票人数多，评分低

df[(df.热门程度=='A')&(df.评分等级=='E')]

	年代	产地	Unnamed: 0	Unnamed: 0.1	名字	投票人数	类型	上映时间	时长	评分	首映地点	评分等级	热门程度
655	2011	中国大陆	655	655.0	B区	5187	剧情/惊悚/恐怖	2011-06-03 00:00:00	89	2.3	中国大陆	E	A
4376	2014	中国大陆	4376	4376.0	怖偶	4867	悬疑/惊悚	2014-05-07 00:00:00	88	2.8	中国大陆	E	A
5413	2011	中国大陆	5413	5413.0	床下有人	4309	悬疑/惊悚	2011-10-14 00:00:00	100	2.8	中国大陆	E	A
6802	2013	中国大陆	6802	6802.0	帝国秘符	4351	动作/冒险	2013-09-18 00:00:00	93	3.0	中国大陆	E	A
8232	2011	中国大陆	8232	8232.0	飞天	4764	剧情	2011-07-01 00:00:00	115	2.9	中国大陆	E	A
8406	2014	中国大陆	8406	8406.0	分手达人	3937	喜剧/爱情	2014-06-06 00:00:00	90	2.7	中国大陆	E	A
9601	2012	中国大陆	9601	9601.0	孤岛惊魂	2982	悬疑/惊悚/恐怖	2013-01-26 00:00:00	93	2.8	中国大陆	E	A
10513	2013	中国大陆	10513	10513.0	海天盛宴·韦口	3788	情色	2013-10-12 00:00:00	88	2.9	网络	E	A
16799	2013	中国大陆	16799	16800.0	孪生密码	6390	动作/悬疑	2013-11-08 00:00:00	96	2.9	中国大陆	E	A
21530	2010	日本	21530	21539.0	拳皇	6329	动作/科幻/冒险	2012-10-12 00:00:00	93	3.0	中国大陆	E	A
22702	2013	中国大陆	22702	22711.0	闪魂	3119	惊悚/犯罪	2014-02-21 00:00:00	94	2.6	中国大陆	E	A
22880	2015	中国大陆	22880	22889.0	少年mzd	3058	动画/儿童/冒险	2015-04-30 00:00:00	76	2.4	中国大陆	E	A
24125	2013	英国	24125	24134.0	史前怪兽	3543	动作/惊悚/冒险	2014-01-01 00:00:00	89	3.0	中国大陆	E	A
28258	2011	中国大陆	28258	28267.0	无极限之危情速递	6319	喜剧/动作/爱情/冒险	2011-08-12 00:00:00	94	2.8	中国大陆	E	A
32094	2010	中国大陆	32094	32105.0	异度公寓	3639	惊悚	2010-06-04 00:00:00	93	2.7	中国大陆	E	A
32487	2014	中国大陆	32487	32498.0	英雄之战	8359	动作/爱情	2014-03-21 00:00:00	90	3.0	中国大陆	E	A
32660	2013	中国大陆	32660	32671.0	咏春小龙	8861	剧情/动作	2013-07-20 00:00:00	90	3.0	中国大陆	E	A
33483	2014	中国大陆	33483	33496.0	再爱一次好不好	6999	喜剧/爱情	2014-04-11 00:00:00	94	3.0	中国大陆	E	A
38651	2014	中国大陆	38651	38665.0	大话天仙	21629	喜剧/奇幻/古装	2014-02-02 00:00:00	91	3.0	中国大陆	E	A
38653	2013	中国大陆	38653	38667.0	天机·富春山居图	74709	动作/冒险	2013-06-09 00:00:00	122	2.9	中国大陆	E	A
38654	2014	中国大陆	38654	38668.0	特工艾米拉	10852	动作/悬疑	2014-04-11 00:00:00	96	2.7	中国大陆	E	A
38658	2015	中国大陆	38658	38672.0	汽车人总动员	12892	喜剧/动画/冒险	2015-07-03 00:00:00	85	2.3	中国大陆	E	A
38663	2016	中国大陆	38663	38677.0	2016年中央电视台春节	17328	歌舞/真人秀	2016-02-07 00:00:00	280	2.3	中国大陆	E	A
38669	2014	中国大陆	38669	38683.0	放手爱	29254	喜剧/爱情	2014-04-30 00:00:00	93	2.3	中国大陆	E	A

冷门高分电影

df[(df.热门程度=='E')&(df.评分等级=='A')]

	年代	产地	Unnamed: 0	Unnamed: 0.1	名字	投票人数	类型	上映时间	时长	评分	首映地点	评分等级	热门程度
456	2015	美国	456	456.0	未知电影	45	音乐	2015-12-14 00:00:00	60	9.3	美国	A	E
587	2011	英国	587	587.0	BBC喜剧音	38	喜剧/音乐/歌舞	2011-08-13 00:00:00	95	9.3	美国	A	E
642	2003	美国	642	642.0	未知电影	38	纪录片/音乐	2003-02-03 00:00:00	55	9.2	美国	A	E
686	2014	英国	686	686.0	未知电影	63	音乐/舞台艺术	2014-05-18 00:00:00	49	9.5	美国	A	E
698	2008	英国	698	698.0	未知电影	52	纪录片	2008-07-25 00:00:00	40	9.8	美国	A	E
...	...	...	...	...	...	...	...	...	...	...	...	...	...
37574	1986	英国	37574	37587.0	歌唱神探	36	剧情/悬疑/歌舞	1986-11-16 00:00:00	415	9.1	美国	A	E
37700	1972	美国	37700	37713.0	未知电影	56	纪录片	1972-12-23 00:00:00	70	9.3	美国	A	E
38105	1975	美国	38105	38119.0	山那边	70	剧情	1975-11-14 00:00:00	103	9.1	美国	A	E
38438	2015	美国	38438	38452.0	奎	62	纪录片/短片	2015-08-19 00:00:00	9	9.1	纽约电影论坛	A	E
38494	2007	英国	38494	38508.0	未知电影	41	纪录片/短片	1905-06-29 00:00:00	57	9.2	美国	A	E

245 rows × 13 columns

将处理的数据保存

df.to_excel('movies_data3.xlsx')

3.4 合并数据集

（1）append

先把数据集拆分为多个，再进行合并

df_usa=df[df.产地=='美国']df_cn=df[df.产地=='中国大陆']

df_cn.append(df_usa)

	年代	产地	Unnamed: 0	Unnamed: 0.1	名字	投票人数	类型	上映时间	时长	评分	首映地点	评分等级	热门程度
4	1993	中国大陆	4	4.0	霸王别姬	478523	剧情/爱情/同性	1993-01-01 00:00:00	171	9.400000	香港	A	A
21	1961	中国大陆	21	21.0	大闹天宫	74881	动画/奇幻	1905-05-14 00:00:00	114	9.200000	上集	A	A
29	2015	中国大陆	29	29.0	穹顶之下	51113	纪录片	2015-02-28 00:00:00	104	9.200000	中国大陆	A	A
38	1982	中国大陆	38	38.0	茶馆	10678	剧情/历史	1905-06-04 00:00:00	118	9.200000	美国	A	A
45	1988	中国大陆	45	45.0	山水情	10781	动画/短片	1905-06-10 00:00:00	19	9.200000	美国	A	A
...	...	...	...	...	...	...	...	...	...	...	...	...	...
38712	1987	美国	38712	38726.0	零下的激情	199	剧情/爱情/犯罪	1987-11-06 00:00:00	98	7.400000	美国	B	D
38714	1986	美国	38714	38728.0	离别秋波	240	剧情/爱情/音乐	1986-02-19 00:00:00	90	8.200000	美国	B	C
38717	1986	美国	38717	38732.0	极乐森林	45	纪录片	1986-09-14 00:00:00	90	8.100000	美国	B	E
38719	1935	美国	38719	38734.0	1935年	57	喜剧/歌舞	1935-03-15 00:00:00	98	7.600000	美国	B	E
38723	2017	美国	38723	NaN	复仇者联盟3	123456	剧情/科幻	2017-05-04 00:00:00	142	6.935704	美国	C	A

15780 rows × 13 columns

（2）merge

pd.merge(left, right, how='inner', on=None, left_on=None, right_on=None,
left_index=False, right_index=False, sort=True,
suffixes=('_x','_y'), copy=True, indicator=False)

left：对象

right：另一个对象

on：要加入的列。必须在左、右综合对象中找到。如果不能通过，left_index和right_index是假，将推断DataFrame中的列的交叉点为连接键

left_on：从左边的综合使用作为键列。可以是列名或数组的长度等于长度综合。

right_on：从右边的综合使用作为键列。可以是列名或数组的长度等于长度综合。

left_index：如果为True，则使用索引（行标签）从左综合作为其连接键。在与多重（层次）的综合，级别数必须匹配连接键从右综合的数目。

right_index：先沟通用法作为正确综合left_index。

how：之一‘左’，‘右’，‘外在’，‘内部’。默认为内联。

sort：综合通过连接键按字典顺序对结果进行排序。默认为True，设置为False在大多数情况下将提高性能。

suffixes：字符串后缀并不适用于重叠列的元组。默认为（'_x'，'_y'）

copy：即使重新索引是不必要总是从传递的综合对象，赋值的数据（默认为True）。在许多情况下不能避免，但可能会提高性能/内存使用情况，可以避免赋值上述案件有些病理，但尽管如此提供此选项。

indicator：将列添加到输出综合呼吁_merge与信息源的每一行。_merge是绝对类型，并对观测其合并键只出现在‘左’的综合，关策其合并键只会出现在‘正确’的综合，和两个如果观测合并关键发现在两个 right_only left_only 的值。

选取6部热门电影进行操作

df1=df.loc[:5]df1

	年代	产地	Unnamed: 0	Unnamed: 0.1	名字	投票人数	类型	上映时间	时长	评分	首映地点	评分等级	热门程度
0	1994	美国	0	0.0	肖申克的救赎	692795	剧情/犯罪	1994-09-10 00:00:00	142	9.6	多伦多电影节	A	A
1	1957	美国	1	1.0	控方证人	42995	剧情/悬疑/犯罪	1957-12-17 00:00:00	116	9.5	美国	A	A
2	1997	意大利	2	2.0	美丽人生	327855	剧情/喜剧/爱情	1997-12-20 00:00:00	116	9.5	意大利	A	A
3	1994	美国	3	3.0	阿甘正传	580897	剧情/爱情	1994-06-23 00:00:00	142	9.4	洛杉矶首映	A	A
4	1993	中国大陆	4	4.0	霸王别姬	478523	剧情/爱情/同性	1993-01-01 00:00:00	171	9.4	香港	A	A
5	2012	美国	5	5.0	泰坦尼克号	157074	剧情/爱情/灾难	2012-04-10 00:00:00	194	9.4	中国大陆	A	A

df2=df.loc[:5][['名字','产地']]#只想要名字和产地两列df2['票房']=[111,222,333,444,555,666]df2

	名字	产地	票房
0	肖申克的救赎	美国	111
1	控方证人	美国	222
2	美丽人生	意大利	333
3	阿甘正传	美国	444
4	霸王别姬	中国大陆	555
5	泰坦尼克号	美国	666

##打乱样本df2=df2.sample(frac=1)df2

	名字	产地	票房
5	泰坦尼克号	美国	666
2	美丽人生	意大利	333
4	霸王别姬	中国大陆	555
0	肖申克的救赎	美国	111
1	控方证人	美国	222
3	阿甘正传	美国	444

## 重新设置索引df2.index=range(len(df2))df2

	名字	产地	票房
0	泰坦尼克号	美国	666
1	美丽人生	意大利	333
2	霸王别姬	中国大陆	555
3	肖申克的救赎	美国	111
4	控方证人	美国	222
5	阿甘正传	美国	444

对df1和df2进行合并

pd.merge(df1,df2,how='inner',on='名字')

	年代	产地_x	Unnamed: 0	Unnamed: 0.1	名字	投票人数	类型	上映时间	时长	评分	首映地点	评分等级	热门程度	产地_y	票房
0	1994	美国	0	0.0	肖申克的救赎	692795	剧情/犯罪	1994-09-10 00:00:00	142	9.6	多伦多电影节	A	A	美国	111
1	1957	美国	1	1.0	控方证人	42995	剧情/悬疑/犯罪	1957-12-17 00:00:00	116	9.5	美国	A	A	美国	222
2	1997	意大利	2	2.0	美丽人生	327855	剧情/喜剧/爱情	1997-12-20 00:00:00	116	9.5	意大利	A	A	意大利	333
3	1994	美国	3	3.0	阿甘正传	580897	剧情/爱情	1994-06-23 00:00:00	142	9.4	洛杉矶首映	A	A	美国	444
4	1993	中国大陆	4	4.0	霸王别姬	478523	剧情/爱情/同性	1993-01-01 00:00:00	171	9.4	香港	A	A	中国大陆	555
5	2012	美国	5	5.0	泰坦尼克号	157074	剧情/爱情/灾难	2012-04-10 00:00:00	194	9.4	中国大陆	A	A	美国	666

两个样本都有产地列，所以会有两个产地列

（3）concat

将多个数据集进行批量合并

df1=df[:5]df2=df[100:105]df3=df[200:205]

df1

	年代	产地	Unnamed: 0	Unnamed: 0.1	名字	投票人数	类型	上映时间	时长	评分	首映地点	评分等级	热门程度
0	1994	美国	0	0.0	肖申克的救赎	692795	剧情/犯罪	1994-09-10 00:00:00	142	9.6	多伦多电影节	A	A
1	1957	美国	1	1.0	控方证人	42995	剧情/悬疑/犯罪	1957-12-17 00:00:00	116	9.5	美国	A	A
2	1997	意大利	2	2.0	美丽人生	327855	剧情/喜剧/爱情	1997-12-20 00:00:00	116	9.5	意大利	A	A
3	1994	美国	3	3.0	阿甘正传	580897	剧情/爱情	1994-06-23 00:00:00	142	9.4	洛杉矶首映	A	A
4	1993	中国大陆	4	4.0	霸王别姬	478523	剧情/爱情/同性	1993-01-01 00:00:00	171	9.4	香港	A	A

df2

	年代	产地	Unnamed: 0	Unnamed: 0.1	名字	投票人数	类型	上映时间	时长	评分	首映地点	评分等级	热门程度
100	1993	韩国	100	100.0	101	146	喜剧/爱情	1993-06-19 00:00:00	112	7.4	韩国	B	D
101	1995	英国	101	101.0	10	186	喜剧	1995-01-25 00:00:00	101	7.4	美国	B	D
102	2013	韩国	102	102.0	素媛	114819	剧情/家庭	2013-10-02 00:00:00	123	9.1	韩国	A	A
103	2003	美国	103	103.0	101忠狗续集：伦敦	924	喜剧/动画/家庭	2003-01-21 00:00:00	70	7.5	美国	B	B
104	2000	美国	104	104.0	10	9514	喜剧/家庭	2000-09-22 00:00:00	100	7.0	美国	C	A

df3

	年代	产地	Unnamed: 0	Unnamed: 0.1	名字	投票人数	类型	上映时间	时长	评分	首映地点	评分等级	热门程度
200	2014	日本	200	200.0	最完美的离婚 2014特别篇	18478	剧情/喜剧/爱情	2014-02-08 00:00:00	120	9.1	日本	A	A
201	2009	日本	201	201.0	2001夜物	84	剧情/动画	2009-10-02 00:00:00	80	6.6	美国	C	D
202	2009	中国香港	202	202.0	头七頭	7039	恐怖	2009-05-21 00:00:00	60	6.2	美国	C	A
203	1896	法国	203	203.0	火车进站 L	7001	纪录片/短片	1896-01-06	60	8.8	法国	B	A
204	2009	美国	204	204.0	银行舞蹈	6944	短片	1905-07-01 00:00:00	60	7.8	美国	B	A

dff=pd.concat([df1,df2,df3],axis=0) ##默认axis=0 增加行数，axis=1增加列数dff

	年代	产地	Unnamed: 0	Unnamed: 0.1	名字	投票人数	类型	上映时间	时长	评分	首映地点	评分等级	热门程度
0	1994	美国	0	0.0	肖申克的救赎	692795	剧情/犯罪	1994-09-10 00:00:00	142	9.6	多伦多电影节	A	A
1	1957	美国	1	1.0	控方证人	42995	剧情/悬疑/犯罪	1957-12-17 00:00:00	116	9.5	美国	A	A
2	1997	意大利	2	2.0	美丽人生	327855	剧情/喜剧/爱情	1997-12-20 00:00:00	116	9.5	意大利	A	A
3	1994	美国	3	3.0	阿甘正传	580897	剧情/爱情	1994-06-23 00:00:00	142	9.4	洛杉矶首映	A	A
4	1993	中国大陆	4	4.0	霸王别姬	478523	剧情/爱情/同性	1993-01-01 00:00:00	171	9.4	香港	A	A
100	1993	韩国	100	100.0	101	146	喜剧/爱情	1993-06-19 00:00:00	112	7.4	韩国	B	D
101	1995	英国	101	101.0	10	186	喜剧	1995-01-25 00:00:00	101	7.4	美国	B	D
102	2013	韩国	102	102.0	素媛	114819	剧情/家庭	2013-10-02 00:00:00	123	9.1	韩国	A	A
103	2003	美国	103	103.0	101忠狗续集：伦敦	924	喜剧/动画/家庭	2003-01-21 00:00:00	70	7.5	美国	B	B
104	2000	美国	104	104.0	10	9514	喜剧/家庭	2000-09-22 00:00:00	100	7.0	美国	C	A
200	2014	日本	200	200.0	最完美的离婚 2014特别篇	18478	剧情/喜剧/爱情	2014-02-08 00:00:00	120	9.1	日本	A	A
201	2009	日本	201	201.0	2001夜物	84	剧情/动画	2009-10-02 00:00:00	80	6.6	美国	C	D
202	2009	中国香港	202	202.0	头七頭	7039	恐怖	2009-05-21 00:00:00	60	6.2	美国	C	A
203	1896	法国	203	203.0	火车进站 L	7001	纪录片/短片	1896-01-06	60	8.8	法国	B	A
204	2009	美国	204	204.0	银行舞蹈	6944	短片	1905-07-01 00:00:00	60	7.8	美国	B	A

posted @ 2021-06-06 14:53 王陸阅读(792) 评论(7) 编辑收藏举报

刷新页面返回顶部

登录后才能查看或发表评论，立即登录或者逛逛博客园首页

公告

昵称：王陸
园龄： 6年11个月
粉丝： 2052
关注： 178

2025年3月

日

一

二

三

四

五

六

王陸

我可不是为了被全人类喜欢才活着的，只要对于某一个人来说我是必要的，我就能活下去。