padans 常用的统计方法

#coding=utf-8
import pandas as pd
import numpy as np

file="./IMDB-Movie-Data.csv"

data=pd.read_csv(file)
print(data.info())

#获取导演的人数
#一种方法获取导演列。将其先转为列表转为集合(集合里不包括重复元素),然后求len
print(type(data['Director']))
direct=data['Director'].tolist()
print(len(set(direct)))
#第二种方式用本身的函数
d=data['Director']
print(len(d.unique())) #函数unique 是取唯一的意思

#.......................
#获取演员的人数 演员之间有逗号,先要分割
actor=data['Actors']
actor=actor.str.split(',')
print(actor)
d1=actor.tolist()
d1_1=[i for item in d1 for i in item] #二维数组转为一维数组
print(len(set(d1_1))) #转为集合去重 看集合长度

#求电影时长的最大值,和位置

print(data['Runtime (Minutes)'].max())
print(data['Runtime (Minutes)'].idxmax())

本文作者:spiderMan1-1

本文链接:https://www.cnblogs.com/cgy1995/p/9939366.html

版权声明:本作品采用知识共享署名-非商业性使用-禁止演绎 2.5 中国大陆许可协议进行许可。

posted @   spiderMan1-1  阅读(1035)  评论(0编辑  收藏  举报
点击右上角即可分享
微信分享提示
💬
评论
📌
收藏
💗
关注
👍
推荐
🚀
回顶
收起
  1. 1 404 not found REOL
404 not found - REOL
00:00 / 00:00
An audio error has occurred.