数据分析 --- 03.数据清洗, 拼接,替换, 映射,排序,分类

一.数据清洗

- 清洗空值

- 清洗重复值

- 清洗异常值


数据的导入与导出:参考博客:
https://www.cnblogs.com/dev-liu/p/pandas_2.html

　　1.清洗空值

有两种丢失数据：
　　None
　　None是Python自带的，其类型为python object。因此，None不能参与到任何计算中。

　　np.nan(NaN)
　　np.nan是浮点类型，能参与到计算中。但计算的结果总是NaN。

　　①.pandas中的None与NaN

pandas中None与np.nan都视作np.nan

创建含空值的数据

from pandas import Series,DataFrame
import pandas as pd
import numpy as np

df = DataFrame(data=np.random.randint(0,100,size=(10,8)))
df.iloc[1,3] = None
df.iloc[3,5] = np.nan
df.iloc[6,2] = None
df.iloc[8,5] = np.nan
df

　　② 删除整行记录

　　第一种通过判断

　　第二种通过装饰好的内置函数

df.dropna() 可以选择过滤的是行还是列（默认为行）:axis中0表示行，1表示的列

　　③填充数据

fillna():value和method参数

value : 直接写要填充的值

method: ffill :以前面为基础填充
　　　　　bfill: 以后面为基础填充

axis: 0 : 列
　　　 1 : 行

　　2.清洗重复值

　　①创建有重复的数据

import numpy as np
import pandas as pd
from pandas import Series,DataFrame

df = DataFrame(data=np.random.randint(0,100,size=(8,5)))

df.iloc[2] = [6,6,6,6,6]
df.iloc[4] = [6,6,6,6,6]
df.iloc[6] = [6,6,6,6,6]
df

　　② 使用duplicated 进行去重

参数:
     keep: 
　　　　　　first:保留第一个
          last: 保留最后一个

　　③ 使用drop_duplicates()函数删除重复的行

drop_duplicates(keep='first/last'/False)

　　3.清洗异常值

　　①创建数据

df = DataFrame(data=np.random.random(size=(1000,3)),columns=['A','B','C'])

要求:

　　对df应用筛选条件,去除标准差太大的数据:假设过滤条件为 C列数据大于两倍的C列标准差

std_2 = df['C'].std() * 2
std_2

#  0.5888958710508151

# 取反

~(df['C'] > std_2)

最终:

df.loc[~(df['C'] > std_2)]

二. pandas的拼接操作

　　1.级联(表的拼接)

pd.concat,

  参数:

　　  objs
　　  axis=  0 :列
　　　　　 1 :行
　　  keys
　　  join='outer' / 'inner':表示的是级联的方式，outer会将所有的项进行级联（忽略匹配和不匹配），
　　　　　　　　　　　　而inner只会将匹配的项级联到一起，不匹配的不级联
　　  ignore_index=False


pd.append

　　①创建数据

import numpy as np
from pandas import DataFrame,Series
import pandas as pd

df1 = DataFrame(data=np.random.randint(0,100,size=(4,4)),index=['A','B','C','D'],columns=['a','b','c','d'])
df2 = DataFrame(data=np.random.randint(0,100,size=(4,4)),index=['A','B','C','E'],columns=['a','b','c','e'])

　　②匹配的级联

　　③不匹配的级联

不匹配指的是级联的维度的索引不一致。例如纵向级联时列索引不一致，横向级联时行索引不一致

有2种连接方式：

　　外连接：补NaN（默认模式）
　　内连接：只连接匹配的项

　　2.合并(数据的拼接)

使用pd.merge()合并
merge与concat的区别在于，merge需要依据某一共同的列来进行合并

使用pd.merge()合并时，会自动根据两者相同column名称的那一列，作为key来进行合并。

注意每一列元素的顺序不要求一致

参数：
　　how：outer取并集 不存在时用 NaN补充, inner取交集, left:以左侧为准, right:以右侧为准
　　on：当有多列相同的时候，可以使用on来指定使用那一列进行合并，on的值为一个列表

　　①一对一合并

df1 = DataFrame({'employee':['Bob','Jake','Lisa'],
                'group':['Accounting','Engineering','Engineering'],
                })

df2 = DataFrame({'employee':['Lisa','Bob','Jake'],
                'hire_date':[2004,2008,2012],
                })

　　②多对一合并

df3 = DataFrame({
    'employee':['Lisa','Jake'],
    'group':['Accounting','Engineering'],
    'hire_date':[2004,2016]})

df4 = DataFrame({'group':['Accounting','Engineering','Engineering'],
                       'supervisor':['Carly','Guido','Steve']
                })

　　③多对多合并

df1 = DataFrame({'employee':['Bob','Jake','Lisa'],
                 'group':['Accounting','Engineering','Engineering']})

df5 = DataFrame({'group':['Engineering','Engineering','HR'],
                'supervisor':['Carly','Guido','Steve']
                })

　　④ key的标准化

第一种:

当列冲突时，即有多个列名称相同时，需要使用on=来指定哪一个列作为key，配合suffixes指定冲突列名

第二种:

当两张表没有可进行连接的列时，可使用left_on和right_on手动指定merge中左右两边的哪一列列作为连接的列

　　⑤内合并和外合并

三.替换 (replace)

　　1.单值替换

普通替换： 替换所有符合要求的元素:to_replace=15,value='e'

按列指定单值替换： to_replace={列标签：替换值}

　　2.多值替换

四. 映射(map)

map()可以映射新一列数据
map()中可以使用lambd表达式
map()中可以使用方法，可以是自定义的方法

eg:map({to_replace:value})

注意 map()中不能使用sum之类的函数，for循环

map当做一种运算工具，至于执行何种运算，是由map函数的参数决定的（参数：lambda，函数）

#超过3000部分的钱缴纳50%的税
def after_sal(s):
    return s - (s - 3000)*0.5

五.排序(随机抽样)

使用.take()函数排序
　　- take()函数接受一个索引列表，用数字表示,使得df根据列表中索引的顺序进行排序
　　- eg:df.take([1,3,4,2,5])
　　

　　可以借助np.random.permutation()函数随机排序

　　　　np.random.permutation(x)可以生成x个从0-(x-1)的随机数列

df.take(axis=1,indices=np.random.permutation(3)).take(axis=0,indices=np.random.permutation(1000))
df.take(axis=1,indices=np.random.permutation(3)).take(axis=0,indices=np.random.permutation(1000))[0:100]

六. 数据分类处理(重点)

数据聚合是数据处理的最后一步，通常是要使每一个数组生成一个单一的数值。

数据分类处理：

 - 分组：先把数据分为几组
 - 用函数处理：为不同组的数据应用不同的函数以转换数据
 - 合并：把不同组得到的结果合并起来
 
数据分类处理的核心：
     - groupby()函数
     - groups属性查看分组情况
     - eg: df.groupby(by='item').groups

from pandas import DataFrame,Series

df = DataFrame({'item':['Apple','Banana','Orange','Banana','Orange','Apple'],
                'price':[4,3,3,2.5,4,2],
               'color':['red','yellow','yellow','green','green','green'],
               'weight':[12,20,50,30,20,44]})
df

七.高级数据聚合

使用groupby分组后，也可以使用transform和apply提供自定义函数实现更多的运算

　　df.groupby('item')['price'].sum() <==> df.groupby('item')['price'].apply(sum)
　　transform和apply都会进行运算，在transform或者apply中传入函数即可
　　transform和apply也可以传入一个lambda表达式

# 函数

def fun(s):
    sum = 0
    for i in s:
        sum+=i
    return sum/s.size

　　1. apply

　　2. transform(可以直接合并,更加方便)

八.案例:

　　1. 美国各州人口数据分析

需求：
　　导入文件，查看原始数据
　　将人口数据和各州简称数据进行合并
　　将合并的数据中重复的abbreviation列进行删除
　　查看存在缺失数据的列
　　找到有哪些state/region使得state的值为NaN，进行去重操作
　　为找到的这些state/region的state项补上正确的值，从而去除掉state这一列的所有NaN
　　合并各州面积数据areas
　　我们会发现area(sq.mi)这一列有缺失数据，找出是哪些行
　　去除含有缺失数据的行
　　找出2010年的全民人口数据
　　计算各州的人口密度
　　排序，并找出人口密度最高的五个州 df.sort_values()

　　2.美国2012年总统候选人政治献金数据分析

 1.读取文件usa_election.txt
 
 2.查看文件样式及基本信息
 
 3.【知识点】使用map函数+字典，新建一列各个候选人所在党派party
 
 4.使用np.unique()函数查看colums：party这一列中有哪些元素
 
 5.使用value_counts()函数，统计party列中各个元素出现次数，value_counts()是Series中的，无参，返回一个带有每个元素出现次数的Series
 
 6.【知识点】使用groupby()函数，查看各个党派收到的政治献金总数contb_receipt_amt
 
 7.查看具体每天各个党派收到的政治献金总数contb_receipt_amt 。使用groupby([多个分组参数])
 
 8. 将表中日期格式转换为'yyyy-mm-dd'。日期格式,通过函数加map方式进行转换
 
 9.得到每天各政党所收政治献金数目。  考察知识点：groupby（多个字段）
 
 10.【知识点】使用unstack()将上面所得数据中的party行索引变成列索引
 
 11.查看老兵(捐献者职业)DISABLED VETERAN主要支持谁  ：查看老兵们捐赠给谁的钱最多
 
 12.把索引变成列,Series变量.reset_index()
 
 13.找出各个候选人的捐赠者中，捐赠金额最大的人的职业以及捐献额  .通过query("查询条件来查找捐献人职业")

import numpy as np
import pandas as pd
from pandas import Series,DataFrame

months = {'JAN' : 1, 'FEB' : 2, 'MAR' : 3, 'APR' : 4, 'MAY' : 5, 'JUN' : 6,
          'JUL' : 7, 'AUG' : 8, 'SEP' : 9, 'OCT': 10, 'NOV': 11, 'DEC' : 12}
of_interest = ['Obama, Barack', 'Romney, Mitt', 'Santorum, Rick', 
               'Paul, Ron', 'Gingrich, Newt']
parties = {
  'Bachmann, Michelle': 'Republican',
  'Romney, Mitt': 'Republican',
  'Obama, Barack': 'Democrat',
  "Roemer, Charles E. 'Buddy' III": 'Reform',
  'Pawlenty, Timothy': 'Republican',
  'Johnson, Gary Earl': 'Libertarian',
  'Paul, Ron': 'Republican',
  'Santorum, Rick': 'Republican',
  'Cain, Herman': 'Republican',
  'Gingrich, Newt': 'Republican',
  'McCotter, Thaddeus G': 'Republican',
  'Huntsman, Jon': 'Republican',
  'Perry, Rick': 'Republican'           
 }