摘要: 5.3 when 查看 runtime 的类型,发现是 object 类型,也就是字符串,所以,先进行数据转化。 5.3.1 电影时长(绘制电影时长直方图) 5.3.2 发行时间(绘制每月电影数量和单片平均票房)8 5.4 where 本数据集收集的是美国地区的电影数据,对于电影的制作公司以及制作国 阅读全文
posted @ 2021-12-15 22:49 10304 阅读(34) 评论(0) 推荐(0) 编辑
摘要: 5.7 how much 5.7.1 计算相关系数(票房相关系数矩阵) 5.7.2 票房影响因素散点图 6 对附件的 tmdb_1000_predicted.csv 的预测结果 阅读全文
posted @ 2021-12-15 22:49 10304 阅读(42) 评论(0) 推荐(0) 编辑
摘要: 5 数据分析 5.1 why 想要探索影响票房的因素,从电影市场趋势,观众喜好类型,电影导演,发行时间,评分与 关键词等维度着手,给从业者提供合适的建议。 5.2 what 5.2.1 电影类型:定义一个集合,获取所有的电影类型 注意到集合中存在多余的元素:空的单引号,所以需要去除。5 5.2.1. 阅读全文
posted @ 2021-12-15 22:48 10304 阅读(47) 评论(0) 推荐(0) 编辑
摘要: 2.2 补全 runtime 缺失记录的电影 runtime 分别为____94___min 和 ____240___min。 3 重复值处理 运行结果:有____4803______个不重复的 id,可以认为没有重复数据。 4 日期值处理 将 release_date 列转换为日期类型: 阅读全文
posted @ 2021-12-15 22:46 10304 阅读(53) 评论(0) 推荐(0) 编辑
摘要: 5 筛选数据 使用数据分析师最喜欢的一个语法: 票房、预算、受欢迎程度、评分为____0___的数据应该去除; 评分人数过低的电影,评分不具有统计意义,筛选评分人数大于___50__的数据。 此时剩余____2961__条数据,包含____19__个字段。 6 json 数据转换 **说明:**ge 阅读全文
posted @ 2021-12-15 22:46 10304 阅读(90) 评论(0) 推荐(0) 编辑
摘要: 导入数据 import numpy as npimport pandas as pdfrom pandas import DataFrame, Series #可视化显示在界面%matplotlib inline import matplotlibimport matplotlib.pyplot a 阅读全文
posted @ 2021-12-15 22:44 10304 阅读(135) 评论(0) 推荐(0) 编辑