观影大数据分析（二）

5 数据分析

5.1 why

想要探索影响票房的因素，从电影市场趋势，观众喜好类型，电影导演，发行时间，评分与

关键词等维度着手，给从业者提供合适的建议。

5.2 what

5.2.1 电影类型：定义一个集合，获取所有的电影类型

注意到集合中存在多余的元素：空的单引号，所以需要去除。

# 定义一个集合，获取所有的电影类型

genre = set()

for i in df['genres'].str.split(','):  # 去掉字符串之间的分隔符，得到单个电影类型

    genre = set().union(i, genre)  # 集合求并集

    # genre.update(i) #或者使用update方法


genre.discard('') # 去除多余的元素


print(genre)
# 将genre转变成列表

genre_list = list(genre)

# 创建数据框-电影类型

genre_df = pd.DataFrame()

# 对电影类型进行one-hot编码

for i in genre_list:
    # 如果包含类型 i，则编码为1，否则编码为0

    genre_df[i] = df['genres'].str.contains(i).apply(lambda x: 1 if x else 0)

# 将数据框的索引变为年份

genre_df.index = df['release_year']

genre_df.head(5)

5.2.1.1 电影类型数量（绘制条形图）

# 计算得到每种类型的电影总数目，并降序排列

grnre_sum = genre_df.sum().sort_values(ascending = False)

# 可视化

 

colors = ['tomato','C0']

plt.rcParams['font.sans-serif'] = ['SimHei']  #用来显示中文

grnre_sum.plot(kind='bar',label='genres',color=colors,figsize=(12,9))

plt.title('不同类型的电影数量总计',fontsize=20)

plt.xticks(rotation=60)

plt.xlabel('电影类型',fontsize=16)

plt.ylabel('数量',fontsize=16)

plt.grid(False)

plt.savefig("不同电影类型数量-条形图.png",dpi=300) #在 plt.show() 之前调用 plt.savefig()

plt.show()

5.2.1.2 电影类型占比（绘制饼图）

gen_shares = grnre_sum / grnre_sum.sum()

# 设置other类，当电影类型所占比例小于%1时，全部归到other类中

others = 0.01

gen_pie = gen_shares[gen_shares >= others]

gen_pie['others'] = gen_shares[gen_shares < others].sum()

colors = ['tomato', 'lightskyblue', 'goldenrod', 'wheat', 'y', 'tomato', 'lightskyblue', 'goldenrod', 'wheat', 'y',
          'tomato', 'lightskyblue', 'goldenrod', 'wheat', 'y', 'tomato', 'lightskyblue', 'goldenrod', 'wheat', 'y',
          'lightskyblue']

# 设置分裂属性

# 所占比例小于或等于%2时，增大每块饼片边缘偏离半径的百分比

explode = (gen_pie <= 0.02) / 10

# 绘制饼图

gen_pie.plot(kind='pie', label='', colors=colors, explode=explode, startangle=0,

             shadow=False, autopct='%3.1f%%', figsize=(8, 8))

plt.title('不同电影类型所占百分比', fontsize=20)

plt.savefig("不同电影类型所占百分比-饼图.png", dpi=300)

plt.show()

5.2.1.3 电影类型变化趋势（绘制折线图）

#电影类型随时间变化的趋势

gen_year_sum = genre_df.sort_index(ascending = False).groupby('release_year').sum()

gen_year_sum_sub = gen_year_sum[['Action','Adventure','Crime','Romance','Science Fiction','Drama','Comedy','Thriller']]

gen_year_sum_sub.plot(figsize=(12,9))

plt.legend(gen_year_sum_sub.columns)

plt.xticks(range(1915,2018,10))

plt.xlabel('年份', fontsize=16)

plt.ylabel('数量', fontsize=16)

plt.title('不同电影变化趋势', fontsize=20)

 

plt.grid(False)

plt.savefig("不同电影类型数量-折线图2.png",dpi=600)

plt.show()

5.2.1.4 不同电影类型预算/利润（绘制组合图）

# 计算不同电影类型的利润

# Step1-创建profit_dataframe

df['profit'] = df['revenue']-df['budget']

profit_df = pd.DataFrame()

profit_df = pd.concat([genre_df.reset_index(), df['profit']], axis=1)

df.info()

# Step2-创建profit_series，横坐标为genre

profit_s=pd.Series(index=genre_list)

# Step3-求出每种genre对应的利润均值

for i in genre_list:

    profit_s.loc[i]=profit_df.loc[:,[i,'profit']].groupby(i, as_index=False).mean().loc[1,'profit']

profit_s = profit_s.sort_values(ascending = True)

profit_s

 

# 计算不同类型电影的budget

# Step1-创建profit_dataframe

budget_df = pd.DataFrame()

budget_df = pd.concat([genre_df.reset_index(), df['budget']], axis=1)

# Step2-创建budget_series，横坐标为genre

budget_s=pd.Series(index=genre_list)

# Step3-求出每种genre对应的预算均值

for j in genre_list:

    budget_s.loc[j]=budget_df.loc[:,[j,'budget']].groupby(j, as_index=False).mean().loc[1,'budget']

budget_s

 

# 再接着，横向合并 profit_s 和 budget_s

profit_budget = pd.concat([profit_s, budget_s], axis=1)

profit_budget.columns = ['profit', 'budget']

 

#添加利润率列

profit_budget['rate'] = (profit_budget['profit']/profit_budget['budget'])*100

# 降序排序

profit_budget_sort=profit_budget.sort_values(by='budget',ascending = False)

profit_budget_sort.head(2)

 

# 绘制不同类型电影平均预算和利润率（组合图）

x = profit_budget_sort.index

y1 = profit_budget_sort.budget

y2 = profit_budget_sort.rate

# 返回profit_budget的行数

length = profit_budget_sort.shape[0]

 

fig = plt.figure(figsize=(12,9))

# 左轴

ax1 = fig.add_subplot(1,1,1)

plt.bar(range(0,length),y1,color='C4',label='平均预算')

plt.xticks(range(0,length),x,rotation=90, fontsize=12)  # 更改横坐标轴名称

ax1.set_xlabel('年份')                   # 设置x轴label ,y轴label

ax1.set_ylabel('平均预算',fontsize=16)

ax1.legend(loc=2,fontsize=12)

 

#右轴

# 共享x轴，生成次坐标轴

ax2 = ax1.twinx()

ax2.plot(range(0,length),y2,'ro-.')

ax2.set_ylabel('平均利润率',fontsize=16)

ax2.legend(loc=1,fontsize=12)

 

# 将利润率坐标轴以百分比格式显示

import matplotlib.ticker as mtick

fmt='%.1f%%'

yticks = mtick.FormatStrFormatter(fmt)

ax2.yaxis.set_major_formatter(yticks)

 

# 设置图片title

ax1.set_title('不同类型电影平均预算和利润率',fontsize=20)

ax1.grid(False)

ax2.grid(False)

plt.savefig("不同电影平均预算+利润率.png",dpi=300)

plt.show()

5.2.2 电影关键词（keywords 关键词分析，绘制词云图）

from wordcloud import STOPWORDS

from wordcloud import WordCloud

keywords_list = []

for i in df['keywords']:

    keywords_list.append(i)

    keywords_list

#把字符串列表连接成一个长字符串

lis = ''.join(keywords_list)

lis.replace('\'s','')

#设置停用词

stopwords = set(STOPWORDS)

stopwords.add('film')

wordcloud = WordCloud(

                background_color = 'black',

                random_state=3,

                stopwords = stopwords,

                max_words = 3000,

                scale=1).generate(lis)

plt.figure(figsize=(10,6))

plt.imshow(wordcloud)

plt.axis('off')

plt.savefig('词云图.png',dpi=300)

plt.show()

5.3 when

查看 runtime 的类型，发现是 object 类型，也就是字符串，所以，先进行数据转化。

5.3.1 电影时长（绘制电影时长直方图）

df.runtime.head(5)

df.runtime = df.runtime.apply(pd.to_numeric, errors='coerce')

df.runtime.describe()

import seaborn as sns

sns.set_style('dark')

sns.distplot(df.runtime, bins=30)

sns.despine(left=True)  # 使用despine()方法来移除坐标轴，默认移除顶部和右侧坐标轴

plt.xticks(range(50, 360, 20))

plt.savefig('电影时长直方图.png', dpi=300)

plt.show()

5.3.2 发行时间（绘制每月电影数量和单片平均票房）8

5.4 where

本数据集收集的是美国地区的电影数据，对于电影的制作公司以及制作国家，在本次的故事

背景下不作分析。

5.5 who

5.5.1 分析票房分布及票房 Top10 的导演

fig = plt.figure(figsize=(12,7))

x = list(range(1,13))

y1 = df.groupby('release_month').revenue.size()

y2 = df.groupby('release_month').revenue.mean()# 每月单片平均票房

 

# 左轴

ax1 = fig.add_subplot(1,1,1)

plt.bar(x,y1,color='C6',label='电影数量')

plt.grid(False)

ax1.set_xlabel('月份')                   # 设置x轴label ,y轴label

ax1.set_ylabel('电影数量',fontsize=16)

ax1.legend(loc=2,fontsize=12)

 

# 右轴

ax2 = ax1.twinx()

plt.plot(x,y2,'bo--',label='每月单片平均票房')

ax2.set_ylabel('每月单片平均票房',fontsize=16)

ax2.legend(loc=1,fontsize=12)

 

plt.savefig('每月电影数量和单片平均票房.png',dpi=300)