08 2022 档案
摘要:一:分布式程序的设计思想 step1:读取数据Input 代码中:要指定读取数据文件的位置,然后返回一个代表这个输入数据的变量 将要处理的数据拆分成N份,每一份数据放在不同机器上 相当于接一个大活,干活的是很多人一起干活,将一个大的任务拆分成很多小任务给每个人分 step2:处理数据Transfor
阅读全文
摘要:实施 问题:为什么要将Spark的程序运行在YARN上,不运行在自带的Standalone集群上? 实现 统一化资源管理 工作中的计算集群大多数情况下只有1套集群 如果Hadoop生态的程序,例如MR、Hive、Sqoop、Oozie等使用YARN来计算 而Spark的程序单独用Standalone
阅读全文
摘要:结构: 命令 + 选项 + 文件 + 参数 基础选项:优先级:代码中配置【程序特有】 > 参数选项【运行模式、程序名称、资源选项】 > 配置文件【公共配置】 --master:用于指定程序的运行的模式:Local、Standalone、YARN、Mesos、K8s local[N]:使用本地模式,给
阅读全文
摘要:分布式主从架构:整体的功能及架构高度类似于YARN【ResourceManager、NodeManager】 分布式架构 普通分布式主从架构:HDFS、YARN、Spark、Flink、Hbase => 主节点单点故障问题 解决主节点单点故障问题:HA高可用架构来解决 公平分布式主从架构:Zooke
阅读全文
摘要:MR的计算流程设计 step1:读取数据:Input 功能一:实现分片,将读取到的数据进行划分,将不同的数据才能分给不同Task 功能二:转换KV step2:处理数据:Map、Shuffle、Reduce Map:负责数据处理:一对一的转换,多对一的过滤 功能一:构建分布式并行Task,每个分片对
阅读全文
摘要:应用场景 离线场景:实现离线数据仓库中的数据清洗、数据分析、即席查询等应用 比较成熟,工作中主要的应用场景 使用Spark对各种数据源数据进行处理:Hive、RDBMS、文件 Hive数仓常见处理引擎:Spark、Impala、Presto Impala:底层是C语言,性能最好,SQL开发,集成Hi
阅读全文
摘要:定义:基于内存式计算的分布式的==统一化==的数据分析引擎 功能:多语言数据分析引擎工具栈 实现离线数据批处理:类似于MapReduce、Pandas,写代码做处理 实现交互式即时数据查询:类似于Hive、Presto、Impala,使用SQL做即席查询分析 实现实时数据处理:类似于Storm、Fl
阅读全文