Spark数据清洗demo 简单理解

ref: https://blog.csdn.net/weixin_38468167/article/details/109814909

 

整体思路:数据格式化 ---> 数据格式定义

1 数据格式化(喂数据):把初始的数据转换成spark识别的rdd类型

2 数据格式定义(喂数据的特征):定义特征字段

这应该很好理解,对于spark而言,要执行数据清洗工作,必须得知道要清洗的数据,同时这个数据的格式,也应该是它认识的;

同时,对于这一堆抽象的数据,如果你不指定特征字段,它怎么去识别这一堆数据中,哪些是特征字段,哪些是字段的值,这样后续的清洗工作就没办法干了

对于清洗而言,应该是要预先指定特征字段,不然机器无法执行清洗任务。

posted @ 2021-10-15 16:38  Caesar_the_great  阅读(403)  评论(0编辑  收藏  举报