摘要: 一、Spark on YARN cluster 模式作业运行全过程分析 下面是分析Spark on YARN的Cluster模式,从用户提交作业到作业运行结束整个运行期间的过程分析。 客户端进行操作 1、根据yarnConf来初始化yarnClient,并启动yarnClient 2、创建客户端Ap 阅读全文
posted @ 2020-05-12 21:11 Q1Zhen 阅读(2821) 评论(0) 推荐(0) 编辑
摘要: 有状态和无状态 无状态:仅限对收集周期内数据进行处理 有状态:将本次收集周期与前面的所有收集周期获得的数据统一进行处理,两个周期内的数据合并过程类似于SparkSQL中自定义聚合函数的buffer。 窗口函数 window operations可以设置窗口的大小和华东窗口的间隔来动态的获取当前Str 阅读全文
posted @ 2020-05-12 15:15 Q1Zhen 阅读(108) 评论(0) 推荐(0) 编辑
摘要: 微批处理 伪实时处理 数据源 1.非自定义数据源 2.自定义数据源 自定义收集器,集成Receiver 使用自定义收集器 阅读全文
posted @ 2020-05-12 13:16 Q1Zhen 阅读(103) 评论(0) 推荐(0) 编辑
摘要: 原文链接:https://blog.csdn.net/dengjili/article/details/82468576 原子性(Atomicity) 原子性是指事务是一个不可分割的工作单位,事务中的操作要么都发生,要么都不发生。 一致性(Consistency) 事务前后数据的完整性必须保持一致。 阅读全文
posted @ 2020-05-12 10:42 Q1Zhen 阅读(148) 评论(0) 推荐(0) 编辑