摘要: Spark作为一个开源数据处理框架,它在数据计算过程中把中间数据直接缓存到内存里,能大大提高处理速度,特别是复杂的迭代计算。Spark主要包括SparkSQL,SparkStreaming,Spark MLLib以及图计算。Spark核心概念简介1、RDD即弹性分布式数据集,通过RDD可以执行各... 阅读全文
posted @ 2015-12-28 15:10 个推 阅读(570) 评论(0) 推荐(0) 编辑