- 应用场景
- 离线场景:实现离线数据仓库中的数据清洗、数据分析、即席查询等应用
- 比较成熟,工作中主要的应用场景
- 使用Spark对各种数据源数据进行处理:Hive、RDBMS、文件
- Hive数仓常见处理引擎:Spark、Impala、Presto
- Impala:底层是C语言,性能最好,SQL开发,集成Hive或者Hbase,语法兼容性较差
- Presto:底层基于JVM,性能其次,SQL开发,集合各种数据库数据源,纯内存,与Hive兼容性较差
- Spark:底层基于JVM,支持读写各种大数据平台数据源数据,多种开发语言,与Hive语法完美兼容
- 实时场景:实现实时数据流数据处理,相对而言功能和性能不是特别的完善,工作中建议使用Flink替代
- 开发语言:Python、Scala、SQL、Java、R
- 运行模式
- 本地模式Local:程序运行在本地,不是分布式的,只启动1个进程运行所有Task任务,一般用于测试
- 集群模式Cluster
- Standalone:Spark自带的一个分布式资源管理平台,可以将Spark直接运行在自带的平台中
- YARN:Hadoop中的一个公共的分布式资源管理平台,可以将Spark程序提交到YARN中运行
- Messos:类似于YARN,国外用的比较多
- K8s:分布式资源容器平台
posted @
2022-08-14 21:34
hai_sir
阅读(
600)
评论()
编辑
收藏
举报
点击右上角即可分享
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· TypeScript + Deepseek 打造卜卦网站:技术与玄学的结合
· 阿里巴巴 QwQ-32B真的超越了 DeepSeek R-1吗?
· 【译】Visual Studio 中新的强大生产力特性
· 10年+ .NET Coder 心语 ── 封装的思维:从隐藏、稳定开始理解其本质意义
· 【设计模式】告别冗长if-else语句:使用策略模式优化代码结构