02-Spark的应用及使用

  • 应用场景
    • 离线场景:实现离线数据仓库中的数据清洗、数据分析、即席查询等应用
      • 比较成熟,工作中主要的应用场景
      • 使用Spark对各种数据源数据进行处理:Hive、RDBMS、文件
      • Hive数仓常见处理引擎:Spark、Impala、Presto
      • Impala:底层是C语言,性能最好,SQL开发,集成Hive或者Hbase,语法兼容性较差
      • Presto:底层基于JVM,性能其次,SQL开发,集合各种数据库数据源,纯内存,与Hive兼容性较差
      • Spark:底层基于JVM,支持读写各种大数据平台数据源数据,多种开发语言,与Hive语法完美兼容
    • 实时场景:实现实时数据流数据处理,相对而言功能和性能不是特别的完善,工作中建议使用Flink替代
  • 开发语言:Python、Scala、SQL、Java、R
  • 运行模式
    • 本地模式Local:程序运行在本地,不是分布式的,只启动1个进程运行所有Task任务,一般用于测试
    • 集群模式Cluster
      • Standalone:Spark自带的一个分布式资源管理平台,可以将Spark直接运行在自带的平台中
      • YARN:Hadoop中的一个公共的分布式资源管理平台,可以将Spark程序提交到YARN中运行
      • Messos:类似于YARN,国外用的比较多
      • K8s:分布式资源容器平台
posted @   hai_sir  阅读(600)  评论(0编辑  收藏  举报
相关博文:
阅读排行:
· TypeScript + Deepseek 打造卜卦网站:技术与玄学的结合
· 阿里巴巴 QwQ-32B真的超越了 DeepSeek R-1吗?
· 【译】Visual Studio 中新的强大生产力特性
· 10年+ .NET Coder 心语 ── 封装的思维:从隐藏、稳定开始理解其本质意义
· 【设计模式】告别冗长if-else语句:使用策略模式优化代码结构
点击右上角即可分享
微信分享提示