MathorCup 高校数学建模挑战赛——大数据竞赛 (效果图)

练习题:观影大数据分析

王 S 聪想要在海外开拓万 D 电影的市场,这次他在考虑:怎么拍商业电影才能赚钱?毕竟一些制作成本超过 1 亿美元的大型电影也会失败。这个问题对电影业来说比以往任何时候都更加重要。 所以,他就请来了你(数据分析师)来帮他解决问题,给出一些建议,根据数据分析一下商业电影的成功是否存在统一公式?以帮助他更好地进行决策。

解决的终极问题是:电影票房的影响因素有哪些?接下来我们就分不同的维度分析: • 观众喜欢什么电影类型?有什么主题关键词? • 电影风格随时间是如何变化的? • 电影预算高低是否影响票房? • 高票房或者高评分的导演有哪些? • 电影的发行时间最好选在啥时候? • 拍原创电影好还是改编电影好?本次使用的数据来自于 Kaggle 平台(TMDb 5000 Movie Database)。收录了美国地区 1916-2017 年近 5000 部电影的数据,包含预算、导演、票房、电影评分等信息。原始数据集包含 2 个文件:

• tmdb_5000_movies:电影基本信息,包含 20 个变量 • tmdb_5000_credits:演职员信息,包含 4 个变量

请使用 Python 编程,完成下列问题:

(1)    使用附件中的 tmdb_5000_movies.csv 和 tmdb_5000_credits.csv 数据集,进行数据清洗、数据挖掘、数据分析和数据可视化等,研究电影票房的影响因素有哪些?从不同的维度分析电影,讨论并分析你的结果。

(2)    附件 tmdb_1000_predict.csv 中包含 1000 部电影的基本信息,请你选择合适的指标,进行特征提取,建立机器学习的预测模型,预测 1000 部电影的 vote_average 和 vote_count,并保存为 tmdb_1000_predicted.csv。

 

数据清洗

1   导入数据

 

 

 

2   缺失值处理缺失记录仅___3___条,采取网上搜索,补全信息。

 

2.1   补全 release_date

 

 

缺失记录的电影标题为《America Is Still the Place》,日期为2014-06-01

2.2   补全 runtime

 

 

缺失记录的电影 runtime 分别为94min 和 240min。

3   重复值处理

 

 

 

运行结果:有4803个不重复的 id,可以认为没有重复数据。

4   日期值处理

将 release_date 列转换为日期类型:

 

 

5   筛选数据

使用数据分析师最喜欢的一个语法:

 

 

票房、预算、受欢迎程度、评分为0的数据应该去除;

评分人数过低的电影,评分不具有统计意义,筛选评分人数大于50的数据。

 

 

此时剩余2961条数据,包含19个字段。

6   json 数据转换

**说明:**genres,keywords,production_companies,production_countries,cast,crew 这 6 列都是 json 数据,需要处理为列表进行分析。

处理方法: json 本身为字符串类型,先转换为字典列表,再将字典列表转换为,以’,'分割的字符串

 

 

 

 

 

7   数据备份

 

 

 

 

 

 

5   数据分析

5.1  why

想要探索影响票房的因素,从电影市场趋势,观众喜好类型,电影导演,发行时间,评分与关键词等维度着手,给从业者提供合适的建议。

5.2  what

5.2.1   电影类型:定义一个集合,获取所有的电影类型

 

 

 

  

 

 

注意到集合中存在多余的元素:空的单引号,所以需要去除。

 

 

 

 

 

 

 

 

 

5.2.1.1   电影类型数量(绘制条形图)

 

 

 

 

 

 

 

 

 

5.2.1.2   电影类型占比(绘制饼图)

 

 

 

 

 

 

 

 

5.2.1.3   电影类型变化趋势(绘制折线图)

 

 

 

 

 

 

 

 

 

5.2.1.4   不同电影类型预算/利润(绘制组合图)

 

 

 

 

 

 

5.2.2   电影关键词(keywords 关键词分析,绘制词云图)

 

 

 

 

 

 

 

 

 

5.3  when

查看 runtime 的类型,发现是 object 类型,也就是字符串,所以,先进行数据转化。

 

 

 

 

 

 

 

 

 

 

5.3.1   电影时长(绘制电影时长直方图)

 

 

 

 

 

 

 

 

 

 

 

 

 

5.3.2   发行时间(绘制每月电影数量和单片平均票房)

 

 

 

 

 

 

 

 

 

 

 

 

 

 

5.4  where

本数据集收集的是美国地区的电影数据,对于电影的制作公司以及制作国家,在本次的故事背景下不作分析。

5.5  who

5.5.1   分析票房分布及票房 Top10 的导演

 

 

 

 

 

 

5.5.2   分析评分分布及评分 Top10 的导演

 

 

 

 

 

 

5.6  how

5.6.1   原创 VS 改编占比(饼图)

 

 

 

 

 

 

 

 

 

5.6.2   原创 VS 改编预算/利润率(组合图)

 

 

 

 

 

5.7  how much

5.7.1   计算相关系数(票房相关系数矩阵)

 

 

 

 

 

5.7.2   票房影响因素散点图

 

 

 

 

 

 

 

6   对附件的 tmdb_1000_predicted.csv 的预测结果

 What

电影类型数量

 

 

从数量上看,

排名前三的电影类型分别为Drama(戏剧)、Comedy(喜剧)、Thriller(恐怖),分别占比16.2%,12.7%和11.4%,但实际上除了数量排名第一的戏剧外,第二名Comedy(喜剧),第三名Thriller(恐怖),第四名Action(动作)差距并不大。

排名后三的冷门类型为Music(音乐)、War(战争)、History(历史),说明这部分电影可能受众比较少,拍摄数量不多,在选择时可以尽量避开。

 

分析电影类型趋势可以看出,1995年附近是电影数量激增的集中爆发阶段,并且大部分电影的数量增长趋势基本相同,都是低谷期所有均降,高峰期所有均增。但是Drama(戏剧)增长最快,下降也最快,因此可以初步判断电影数量存在“大小年”的差异。

 

通过分析利润可以发现,History(历史)和Western(西方)这两种电影利润率偏低,其他利润一般,而Documentary(纪录片)由于预算比较低,因此利润率很高。

在选择时尽量避雷History(历史)和Western(西方)这两种类型,利润低;可以多选择Documentary(纪录片)类型。

 

关键词分析,love(爱情)、death(死亡)、novel(小说)、murder(谋杀)、woman(女性)、loss(伤感),这些方面是热门话题,因此与这些内容符合的电影可以尽量选择

When

时长直方图

 

可以看出大部分电影集中在80~140分钟,即一个半小时到两个小时,选择时尽量选择这个时长的电影,太长或太短都不太好。

 

依照时间来看,9月电影数量最多但是单片平均票房不高,竞争比较激烈;1月不仅数量少,利润也不高,属于大坑,要避开;12月电影数量略少于9月但单片平均票房尚可,因此可以分析出12月是电影旺季,电影数量多且观众消费高,对电影竞争力比较有自信的可以试试12月。最推荐的时5月和6月,电影数量不多,单片平均票房最高,竞争比较小,是电影放映的好时间。

 

Who

查看Top10导演

 

可以看出Chris Buck导演的票房是最高的,优先考虑其所执导的电影

Kyle Balda、Lee Unkrich、Joss Whedon这三位导演票房也还不错,同样可以考虑

 

评分Top10

 

可以看出这10位导演的口碑基本差别不大,均可以考虑

 

How

 

 

但是改编类型的电影虽然预算高但是利润同样也比较高,可能是由于改编类型的电影具有原作的受众群体,因此在选择改编类型电影时,要尽量选择原作口碑好的

 

How much

票房因素的相关系数

 

可以看出popularity(流行度),vote_count(评分人数),budget(预算),对revenue(票房)的影响比较大,影响度分别为,0.59,0.75,0.7,因此想要得到高收入得电影需要慎重考虑这几个方面

可以通过多宣传来提高评分人数和流行度,加大电影预算来获得更高得收入

 

 

 

 

 

 

 

posted @ 2022-12-12 19:52  萧贾jzm  阅读(157)  评论(0编辑  收藏  举报
//歌单id