Spark数据清洗demo 简单理解

ref: https://blog.csdn.net/weixin_38468167/article/details/109814909

整体思路：数据格式化 ---> 数据格式定义

1 数据格式化（喂数据）：把初始的数据转换成spark识别的rdd类型

2 数据格式定义（喂数据的特征）：定义特征字段

这应该很好理解，对于spark而言，要执行数据清洗工作，必须得知道要清洗的数据，同时这个数据的格式，也应该是它认识的；

同时，对于这一堆抽象的数据，如果你不指定特征字段，它怎么去识别这一堆数据中，哪些是特征字段，哪些是字段的值，这样后续的清洗工作就没办法干了

对于清洗而言，应该是要预先指定特征字段，不然机器无法执行清洗任务。

posted @ 2021-10-15 16:38 Caesar_the_great 阅读(403) 评论(0) 编辑收藏举报

会员力量，点亮园子希望

刷新页面返回顶部