摘要: 1、spark是通用大数据处理框架。 2、spark快的原因,内存计算,支持有向无环图DAG,减少迭代过程中的数据落地。 3、SparkSQL: 引入新的RDD类型SchemaRDD,可以像传统数据库定义表一样定义SchemaRDD。 内存列存储:SparkSQL的表数据在内存中存储不是采用原生态的 阅读全文
posted @ 2018-05-07 09:18 海东青Lo 阅读(680) 评论(0) 推荐(0) 编辑