padans 常用的统计方法

#coding=utf-8
import pandas as pd
import numpy as np

file="./IMDB-Movie-Data.csv"

data=pd.read_csv(file)
print(data.info())

#获取导演的人数
#一种方法获取导演列。将其先转为列表转为集合（集合里不包括重复元素），然后求len
print(type(data['Director']))
direct=data['Director'].tolist()
print(len(set(direct)))
#第二种方式用本身的函数
d=data['Director']
print(len(d.unique()))  #函数unique 是取唯一的意思

#.......................
#获取演员的人数  演员之间有逗号，先要分割
actor=data['Actors']
actor=actor.str.split(',')
print(actor)
d1=actor.tolist()
d1_1=[i for item in d1 for i in item] #二维数组转为一维数组
print(len(set(d1_1)))  #转为集合去重 看集合长度

#求电影时长的最大值，和位置

print(data['Runtime (Minutes)'].max())
print(data['Runtime (Minutes)'].idxmax())

posted @ 2018-11-10 14:38 spiderMan1-1 阅读(1080) 评论(0) 收藏举报

刷新页面返回顶部

chengaoyuan1

padans 常用的统计方法

公告