摘要: spark的数据本地性(data locality) Spark其中一个特性就是数据本地性,简单的说就是“移动数据不如移动计算”。 因为数据在网络传输中会有不小的I/O消耗,并且传输距离越长消耗越大。 所以,数据本地性可以理解为数据传输距离,而我们的目的就是避免数据在网络中传输或尽量减少传输的距离。 阅读全文
posted @ 2021-06-01 18:15 lillcol 阅读(1333) 评论(0) 推荐(0) 编辑
摘要: 数据处理的过程 数据处理的过程一般如下: 数据质量管理(DATA Quality Managenment)是指对上述过程中每个阶段可能出现引发数据质量的问题进行识别、监控、预警等相关管理活动。 通过改善和提高组织的管理水平是的数据质量进一步提升。 数据质量管理是一个循环管理的过程,其最终目标是通过可 阅读全文
posted @ 2021-06-01 16:03 lillcol 阅读(1774) 评论(0) 推荐(0) 编辑