2018 年 5月 7 日随笔档案 - 海东青Lo

2018年5月7日

摘要： 1、spark是通用大数据处理框架。 2、spark快的原因，内存计算，支持有向无环图DAG，减少迭代过程中的数据落地。 3、SparkSQL：引入新的RDD类型SchemaRDD，可以像传统数据库定义表一样定义SchemaRDD。内存列存储：SparkSQL的表数据在内存中存储不是采用原生态的阅读全文

posted @ 2018-05-07 09:18 海东青Lo 阅读(680) 评论(0) 推荐(0) 编辑

海东青Lo

公告