会员
周边
众包
新闻
博问
闪存
赞助商
所有博客
当前博客
我的博客
我的园子
账号设置
简洁模式
...
退出登录
注册
登录
海东青Lo
博客园
首页
新随笔
联系
订阅
管理
2018年5月7日
spark及其生态系统
摘要: 1、spark是通用大数据处理框架。 2、spark快的原因,内存计算,支持有向无环图DAG,减少迭代过程中的数据落地。 3、SparkSQL: 引入新的RDD类型SchemaRDD,可以像传统数据库定义表一样定义SchemaRDD。 内存列存储:SparkSQL的表数据在内存中存储不是采用原生态的
阅读全文
posted @ 2018-05-07 09:18 海东青Lo
阅读(680)
评论(0)
推荐(0)
编辑
公告