摘要:
作为一个JVM进程,EXecutor的内存管理建立在JVM的内存管理之上,Spark对JVM的对内空间进行了更为详细的分配,以充分利用内存。同时,Spark引入了堆外内存,使之可以直接在工作节点的系统内存中开辟空间,进一步优化内存的使用。 堆内内存收到JVM统一管理,堆外内存是直接向操作系统进行内存 阅读全文
摘要:
一、Spark on YARN cluster 模式作业运行全过程分析 下面是分析Spark on YARN的Cluster模式,从用户提交作业到作业运行结束整个运行期间的过程分析。 客户端进行操作 1、根据yarnConf来初始化yarnClient,并启动yarnClient 2、创建客户端Ap 阅读全文
摘要:
有状态和无状态 无状态:仅限对收集周期内数据进行处理 有状态:将本次收集周期与前面的所有收集周期获得的数据统一进行处理,两个周期内的数据合并过程类似于SparkSQL中自定义聚合函数的buffer。 窗口函数 window operations可以设置窗口的大小和华东窗口的间隔来动态的获取当前Str 阅读全文
摘要:
微批处理 伪实时处理 数据源 1.非自定义数据源 2.自定义数据源 自定义收集器,集成Receiver 使用自定义收集器 阅读全文
摘要:
原文链接:https://blog.csdn.net/dengjili/article/details/82468576 原子性(Atomicity) 原子性是指事务是一个不可分割的工作单位,事务中的操作要么都发生,要么都不发生。 一致性(Consistency) 事务前后数据的完整性必须保持一致。 阅读全文
摘要:
数据源 SparkSQL默认数据源为Parquet格式(面向列存储)。 将其他格式转换为Parquet后再读取 同样如果是保存,要将格式先进行转换,否则保存下来的数据为Parquet格式 df.write.format("json").mode("append").save(path) 1.从MyS 阅读全文
摘要:
case类在模式匹配和actor中经常使用到,当一个类被定义成为case类后,Scala会自动帮你创建一个伴生对象并帮你实现了一系列方法且带来了不少好处,如下: 1.实现了apply方法,意味着你不需要使用new关键字就能创建该类对象 ? 1 2 3 4 5 scala case class Peo 阅读全文
摘要:
1, 查看防火墙状态: firewall cmd state systemctl status firewalld.service 2, 开启防火墙: systemctl start firewalld.service 3,设置开机自启: systemctl enable firewalld.ser 阅读全文
摘要:
高可用 保证HMaster存在 1.在hbase/conf目录下创建backup masters文件 2.在backup masters文件中配置高可用的HMaster节点 3.将整个conf目录传输到其他节点 预分区 每一个region维护着StartRow与EndRow,如果加入的数据符合某个R 阅读全文