豆瓣数据分析
import pandas as pd data= pd.read_excel('movies.xlsx',names=['名称','数量','评分','短评'])
# type(data) data.head()
data.columns
0 霸王别姬 1 这个杀手不太冷 2 阿甘正传 3 美丽人生 4 泰坦尼克号 5 千与千寻 6 辛德勒的名单 7 盗梦空间 8 忠犬八公的故事 9 机器人总动员 10 三傻大闹宝莱坞 11 海上钢琴师 12 放牛班的春天 13 楚门的世界 14 大话西游之大圣娶亲 15 星际穿越 16 龙猫 17 教父 18 熔炉 19 无间道 20 疯狂动物城 21 当幸福来敲门 22 怦然心动 23 触不可及 24 乱世佳人 25 蝙蝠侠:黑暗骑士 26 活着 27 少年派的奇幻漂流 28 天堂电影院 29 控方证人 ... 219 海蒂和爷爷 220 彗星来的那一夜 221 这个男人来自地球 222 E.T. 外星人 223 末路狂花 224 血钻 225 勇闯夺命岛 226 聚焦 227 2001太空漫游 228 变脸 229 发条橙 230 秒速5厘米 231 黄金三镖客 232 黑鹰坠落 233 卡萨布兰卡 234 非常嫌疑犯 235 国王的演讲 236 我爱你 237 千钧一发 238 美国丽人 239 遗愿清单 240 碧海蓝天 241 功夫 242 疯狂的麦克斯4:狂暴之路 243 荒岛余生 244 英国病人 245 荒野生存 246 海盗电台 247 枪火 248 驴得水 Name: 名称, Length: 249, dtype: object
type(data)
data['评分'].unique()
data['评分'].value_counts()
data.count()
data['评分'].sort_values(ascending=False).head()
mydata = mydata[mydata['评分']>=9.0] mydata[:5]
import matplotlib.pyplot as plt %matplotlib inline plt.plot(mydata['评分'][:10])
data['数量'].mean()
data.describe()
import numpy as np import matplotlib.pyplot as plt print(np.random.rand(10,5))
df = pd.DataFrame(np.random.rand(10, 5), columns=['A', 'B', 'C', 'D', 'E']) plt.plot(df)