摘要: 我们都知道Spark是一种流行的开源分布式处理引擎,适用于大型数据集(通常是TB级别)的分析。Spark可用于处理批量数据,实时流,机器学习和即时查询。处理任务分布在一个节点集群上,数据被缓存在内存中,以减少计算时间。到目前为止,Spark已经可以通过Scala,Java,Python和R访问,却不 阅读全文
posted @ 2019-04-25 15:39 ZerekZhang 阅读(971) 评论(0) 推荐(0) 编辑