对网站数据进行数据清理

 

 

在网上找了 别人扒下来的数据分析相关数据 以及处理后的数据,观察原始数据和处理后数据的区别。

 

 

 

观察两份数据 可以知道其数据筛选要求,以及可以自定义一些自己认为对分析有用的指标。

1.筛选出缺少缺失关键项的数据;

2.对薪水进行最高最低 及其平均值的计算;

3.从职位名称判断是否为数据分析岗位;

4.删除了公司ID (但是我认为有必要保留)

 

好,现在开始正式的清理!

1.先对原始数据进行备份

2.删除缺失项数据

利用自动筛选工具,将空白筛选,将筛选后的表格整体复制粘贴到新的表格,便于后续进行。

2.观察薪水的格式知道它是由-分开最大最小薪水值 也有多少以上薪水的格式

利用find函数查找出-所在位置

 

利用left函数读取从左到右的(-位置)-2的数

 

 

输出数据的长度 最高 = rigt(数据长度 -(-位置))

 

 

 

 

 

 

但是最高薪水有k 再次使用left函数

 

 

 

 

将无关数据项隐藏,检查除了空值其他数据正常,接下来处理空值;

利用筛选找出空值项 发现除了以上还有以下,统一用他的值代替最高最低。

 

 

 平均值

 

 

 

 

筛选出是否有职位名称中是否有‘’数据“和”分析‘’两项都有有则 是 ,否则 否

 

 

 

 

 

 

 

 

再用筛选将空值 替代为否;

 再次筛选 将不属于数据分析的数据删除 并复制新的数据;

 

 

最终得到2211个数据 ,给出的案例中有 2294 比我的多一些,但是在我检查给出的案例时发现他将类似于如下 也归于数据分析

 

 

不算复杂的数据清洗项,大概用了一个小时的时间完成,熟悉了之前的操作,接下来对所给数据进行一定的分析。

 

posted @ 2018-10-07 18:50  Sylvia_717  阅读(267)  评论(0编辑  收藏  举报