Preppin' Data 每周一挑战 使用prep对分类数据求和2020-01
挑战 分类求和
https://preppindata.blogspot.com/2020/01/2020-week-1.html
https://preppindata.blogspot.com/2020/01/2020-week-1-solution.html
补-总结--拿到要整理的数据第一步就是理解它们的结构:表的字段,表间的关系。
简介
一个各类商品的收入表。只有2列,商品名称和收入。
但是,商品名称列包含了额外的信息,即加入了对商品的分类:用1,2,3数字来分类。并且是3级。大类->2级类->具体商品名称。
正常情况下,不能这么做表的。但不幸的是我们遇到了这种垃圾表。
任务:
- 我们只有具体商品的收入,老板希望看到每类商品的合计收入。
- 把"商品名称"前面加上空格,2列加5个空格,具体商品加10个空格。形成层次。方面老板看。
方法:
- 1.先拆分“商品名称”,得到level1, level2, level3的三列。
- 2.根据大类进行分组+聚合sum(Profit)
- 3.根据大类/2级类进行分析,并sum(Profit)
- 4.把上面的两个表,union。利用null, 0去掉不需要的行。
- 5.再把👆的表和原表inner join。然后使用If语句把合计收入存入Profit列中。
- 最后,利用函数mid()进行判断,然后加空格。