数据分析实战(6)-kaggle-电信客户

https://www.kaggle.com/blastchar/telco-customer-churn

1、分析目标

对流失用户进行年龄,性别,家庭状况,职位进行画像分析。

对流失用户所选择的服务进行分析。

对流失用户的付费情况进行分析。

2、理解数据

1)字段含义

2)加载数据

# -*- coding: utf-8 -*-
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

# 1、加载数据
data =pd.read_csv(r'C:\Software\Python\Manager数据\Data\telco-customer-churn\WA_Fn-UseC_-Telco-Customer-Churn.csv')

3)数据概况

# 2、了解数据
data.info()
>>>输出结果:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 7043 entries, 0 to 7042
Data columns (total 21 columns):
customerID          7043 non-null object
gender              7043 non-null object
SeniorCitizen       7043 non-null int64
Partner             7043 non-null object
Dependents          7043 non-null object
tenure              7043 non-null int64
PhoneService        7043 non-null object
MultipleLines       7043 non-null object
InternetService     7043 non-null object
OnlineSecurity      7043 non-null object
OnlineBackup        7043 non-null object
DeviceProtection    7043 non-null object
TechSupport         7043 non-null object
StreamingTV         7043 non-null object
StreamingMovies     7043 non-null object
Contract            7043 non-null object
PaperlessBilling    7043 non-null object
PaymentMethod       7043 non-null object
MonthlyCharges      7043 non-null float64
TotalCharges        7043 non-null object
Churn               7043 non-null object
dtypes: float64(1), int64(2), object(18)
memory usage: 1.1+ MB

数据集的数据量为:7043*21,数据集大小为1.1Mb左右,数据很干净,没有空值,数据预处理可不做缺失值处理。

4、数据预处理

1)缺失值处理

无缺失值情况出现

2)异常值处理

 

 

posted @ 2019-12-01 12:39  麦小秋  阅读(829)  评论(1编辑  收藏  举报