padans 常用的统计方法

#coding=utf-8
import pandas as pd
import numpy as np

file="./IMDB-Movie-Data.csv"

data=pd.read_csv(file)
print(data.info())

#获取导演的人数
#一种方法获取导演列。将其先转为列表转为集合(集合里不包括重复元素),然后求len
print(type(data['Director']))
direct=data['Director'].tolist()
print(len(set(direct)))
#第二种方式用本身的函数
d=data['Director']
print(len(d.unique())) #函数unique 是取唯一的意思

#.......................
#获取演员的人数 演员之间有逗号,先要分割
actor=data['Actors']
actor=actor.str.split(',')
print(actor)
d1=actor.tolist()
d1_1=[i for item in d1 for i in item] #二维数组转为一维数组
print(len(set(d1_1))) #转为集合去重 看集合长度

#求电影时长的最大值,和位置

print(data['Runtime (Minutes)'].max())
print(data['Runtime (Minutes)'].idxmax())
posted @ 2018-11-10 14:38  spiderMan1-1  阅读(1032)  评论(0编辑  收藏  举报