观影大数据分析(二)
5 数据分析
5.1 why
想要探索影响票房的因素,从电影市场趋势,观众喜好类型,电影导演,发行时间,评分与
关键词等维度着手,给从业者提供合适的建议。
5.2 what
5.2.1 电影类型:定义一个集合,获取所有的电影类型
注意到集合中存在多余的元素:空的单引号,所以需要去除。
# 定义一个集合,获取所有的电影类型
genre = set()
for i in df['genres'].str.split(','): # 去掉字符串之间的分隔符,得到单个电影类型
genre = set().union(i, genre) # 集合求并集
# genre.update(i) #或者使用update方法
genre.discard('') # 去除多余的元素
print(genre)
# 将genre转变成列表
genre_list = list(genre)
# 创建数据框-电影类型
genre_df = pd.DataFrame()
# 对电影类型进行one-hot编码
for i in genre_list:
# 如果包含类型 i,则编码为1,否则编码为0
genre_df[i] = df['genres'].str.contains(i).apply(lambda x: 1 if x else 0)
# 将数据框的索引变为年份
genre_df.index = df['release_year']
genre_df.head(5)
5.2.1.1 电影类型数量(绘制条形图)
# 计算得到每种类型的电影总数目,并降序排列
grnre_sum = genre_df.sum().sort_values(ascending = False)
# 可视化
colors = ['tomato','C0']
plt.rcParams['font.sans-serif'] = ['SimHei'] #用来显示中文
grnre_sum.plot(kind='bar',label='genres',color=colors,figsize=(12,9))
plt.title('不同类型的电影数量总计',fontsize=20)
plt.xticks(rotation=60)
plt.xlabel('电影类型',fontsize=16)
plt.ylabel('数量',fontsize=16)
plt.grid(False)
plt.savefig("不同电影类型数量-条形图.png",dpi=300) #在 plt.show() 之前调用 plt.savefig()
plt.show()
5.2.1.2 电影类型占比(绘制饼图)
gen_shares = grnre_sum / grnre_sum.sum()
# 设置other类,当电影类型所占比例小于%1时,全部归到other类中
others = 0.01
gen_pie = gen_shares[gen_shares >= others]
gen_pie['others'] = gen_shares[gen_shares < others].sum()
colors = ['tomato', 'lightskyblue', 'goldenrod', 'wheat', 'y', 'tomato', 'lightskyblue', 'goldenrod', 'wheat', 'y',
'tomato', 'lightskyblue', 'goldenrod', 'wheat', 'y', 'tomato', 'lightskyblue', 'goldenrod', 'wheat', 'y',
'lightskyblue']
# 设置分裂属性
# 所占比例小于或等于%2时,增大每块饼片边缘偏离半径的百分比
explode = (gen_pie <= 0.02) / 10
# 绘制饼图
gen_pie.plot(kind='pie', label='', colors=colors, explode=explode, startangle=0,
shadow=False, autopct='%3.1f%%', figsize=(8, 8))
plt.title('不同电影类型所占百分比', fontsize=20)
plt.savefig("不同电影类型所占百分比-饼图.png", dpi=300)
plt.show()
5.2.1.3 电影类型变化趋势(绘制折线图)
#电影类型随时间变化的趋势
gen_year_sum = genre_df.sort_index(ascending = False).groupby('release_year').sum()
gen_year_sum_sub = gen_year_sum[['Action','Adventure','Crime','Romance','Science Fiction','Drama','Comedy','Thriller']]
gen_year_sum_sub.plot(figsize=(12,9))
plt.legend(gen_year_sum_sub.columns)
plt.xticks(range(1915,2018,10))
plt.xlabel('年份', fontsize=16)
plt.ylabel('数量', fontsize=16)
plt.title('不同电影变化趋势', fontsize=20)
plt.grid(False)
plt.savefig("不同电影类型数量-折线图2.png",dpi=600)
plt.show()
5.2.1.4 不同电影类型预算/利润(绘制组合图)
# 计算不同电影类型的利润
# Step1-创建profit_dataframe
df['profit'] = df['revenue']-df['budget']
profit_df = pd.DataFrame()
profit_df = pd.concat([genre_df.reset_index(), df['profit']], axis=1)
df.info()
# Step2-创建profit_series,横坐标为genre
profit_s=pd.Series(index=genre_list)
# Step3-求出每种genre对应的利润均值
for i in genre_list:
profit_s.loc[i]=profit_df.loc[:,[i,'profit']].groupby(i, as_index=False).mean().loc[1,'profit']
profit_s = profit_s.sort_values(ascending = True)
profit_s
# 计算不同类型电影的budget
# Step1-创建profit_dataframe
budget_df = pd.DataFrame()
budget_df = pd.concat([genre_df.reset_index(), df['budget']], axis=1)
# Step2-创建budget_series,横坐标为genre
budget_s=pd.Series(index=genre_list)
# Step3-求出每种genre对应的预算均值
for j in genre_list:
budget_s.loc[j]=budget_df.loc[:,[j,'budget']].groupby(j, as_index=False).mean().loc[1,'budget']
budget_s
# 再接着,横向合并 profit_s 和 budget_s
profit_budget = pd.concat([profit_s, budget_s], axis=1)
profit_budget.columns = ['profit', 'budget']
#添加利润率列
profit_budget['rate'] = (profit_budget['profit']/profit_budget['budget'])*100
# 降序排序
profit_budget_sort=profit_budget.sort_values(by='budget',ascending = False)
profit_budget_sort.head(2)
# 绘制不同类型电影平均预算和利润率(组合图)
x = profit_budget_sort.index
y1 = profit_budget_sort.budget
y2 = profit_budget_sort.rate
# 返回profit_budget的行数
length = profit_budget_sort.shape[0]
fig = plt.figure(figsize=(12,9))
# 左轴
ax1 = fig.add_subplot(1,1,1)
plt.bar(range(0,length),y1,color='C4',label='平均预算')
plt.xticks(range(0,length),x,rotation=90, fontsize=12) # 更改横坐标轴名称
ax1.set_xlabel('年份') # 设置x轴label ,y轴label
ax1.set_ylabel('平均预算',fontsize=16)
ax1.legend(loc=2,fontsize=12)
#右轴
# 共享x轴,生成次坐标轴
ax2 = ax1.twinx()
ax2.plot(range(0,length),y2,'ro-.')
ax2.set_ylabel('平均利润率',fontsize=16)
ax2.legend(loc=1,fontsize=12)
# 将利润率坐标轴以百分比格式显示
import matplotlib.ticker as mtick
fmt='%.1f%%'
yticks = mtick.FormatStrFormatter(fmt)
ax2.yaxis.set_major_formatter(yticks)
# 设置图片title
ax1.set_title('不同类型电影平均预算和利润率',fontsize=20)
ax1.grid(False)
ax2.grid(False)
plt.savefig("不同电影平均预算+利润率.png",dpi=300)
plt.show()
5.2.2 电影关键词(keywords 关键词分析,绘制词云图)
from wordcloud import STOPWORDS
from wordcloud import WordCloud
keywords_list = []
for i in df['keywords']:
keywords_list.append(i)
keywords_list
#把字符串列表连接成一个长字符串
lis = ''.join(keywords_list)
lis.replace('\'s','')
#设置停用词
stopwords = set(STOPWORDS)
stopwords.add('film')
wordcloud = WordCloud(
background_color = 'black',
random_state=3,
stopwords = stopwords,
max_words = 3000,
scale=1).generate(lis)
plt.figure(figsize=(10,6))
plt.imshow(wordcloud)
plt.axis('off')
plt.savefig('词云图.png',dpi=300)
plt.show()
5.3 when
查看 runtime 的类型,发现是 object 类型,也就是字符串,所以,先进行数据转化。
5.3.1 电影时长(绘制电影时长直方图)
df.runtime.head(5)
df.runtime = df.runtime.apply(pd.to_numeric, errors='coerce')
df.runtime.describe()
import seaborn as sns
sns.set_style('dark')
sns.distplot(df.runtime, bins=30)
sns.despine(left=True) # 使用despine()方法来移除坐标轴,默认移除顶部和右侧坐标轴
plt.xticks(range(50, 360, 20))
plt.savefig('电影时长直方图.png', dpi=300)
plt.show()
5.3.2 发行时间(绘制每月电影数量和单片平均票房)8
5.4 where
本数据集收集的是美国地区的电影数据,对于电影的制作公司以及制作国家,在本次的故事
背景下不作分析。
5.5 who
5.5.1 分析票房分布及票房 Top10 的导演
fig = plt.figure(figsize=(12,7)) x = list(range(1,13)) y1 = df.groupby('release_month').revenue.size() y2 = df.groupby('release_month').revenue.mean()# 每月单片平均票房 # 左轴 ax1 = fig.add_subplot(1,1,1) plt.bar(x,y1,color='C6',label='电影数量') plt.grid(False) ax1.set_xlabel('月份') # 设置x轴label ,y轴label ax1.set_ylabel('电影数量',fontsize=16) ax1.legend(loc=2,fontsize=12) # 右轴 ax2 = ax1.twinx() plt.plot(x,y2,'bo--',label='每月单片平均票房') ax2.set_ylabel('每月单片平均票房',fontsize=16) ax2.legend(loc=1,fontsize=12) plt.savefig('每月电影数量和单片平均票房.png',dpi=300)
plt.show()