Fork me on GitHub

关系网络数据可视化:2. Python数据预处理

 

将数据中导演与演员的关系整理出来,得到导演与演员的关系数据,并统计合作次数

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
% matplotlib inline

import warnings
warnings.filterwarnings('ignore') 
# 不发出警告
# 读取数据

import os
# os.chdir('C:/Users/Hjx/Desktop/')
os.chdir(r'C:\Users\Administrator\Desktop\ch0304_data')
df = pd.read_excel('豆瓣电影数据.xlsx',sheetname=0,header=0)
print('数据总共%i条' % len(df))
print('数据字段为:\n',df.columns.tolist())
df.head(2)
# 查看数据

#数据清洗
data = df[['name', '导演', '主演']]
data.dropna(inplace = True)
data.head()

data_yy = data['主演'].str.split('/ ', expand=True)  
col_len1 = len(data_yy.columns)
data_yy.columns = ['yy'+str(i) for i in range(col_len1)]
data_yy.head()

data_dy = data['导演'].str.split('/ ', expand=True)  
col_len2 = len(data_dy.columns)
data_dy.columns = ['dy'+str(i) for i in range(col_len2)]
data_dy.head()

data2 = data_dy.join(data_yy).join(data['name'])
data2.head()

#拆分+合并

data_re = pd.DataFrame(columns=['name','导演','演员'])  
# 创建一个空的Dataframe

col_yy = data_yy.columns
col_dy = data_dy.columns

for dy in col_dy:
    for yy in col_yy:
        data_i = data2[['name', dy, yy]].dropna() # 提取数据
        data_i.columns = ['name', '导演', '演员'] ## 列名重命名
#         print(data_i)
        data_re = pd.concat([data_re, data_i]) # 添加数据
print(data_re.head())

# 遍历数据后,得到一个导演与演员的关系数据,并做去重处理
# 这里index是有重复的,但作为过程数据可忽略

 

# 汇总统计导演和演员的合作次数

result = data_re.groupby(['导演','演员']).count()
result.reset_index(inplace=True)
result.columns = ['导演','演员','合作次数']
print(result.head())
# 按照导演-演员进行计数统计,得到结果数据
# reset_index() → 将所有索引级别转换为列

writer = pd.ExcelWriter('output.xlsx')
result.to_excel(writer,'sheet1')
writer.save()
# 存为excel
# 注意:output.xlsx文件不能是打开状态

print('finished!')

 

posted @ 2018-09-29 23:24  kris12  阅读(1185)  评论(1编辑  收藏  举报
levels of contents