Q1Zhen - 博客园

2020年5月13日

摘要：作为一个JVM进程，EXecutor的内存管理建立在JVM的内存管理之上，Spark对JVM的对内空间进行了更为详细的分配，以充分利用内存。同时，Spark引入了堆外内存，使之可以直接在工作节点的系统内存中开辟空间，进一步优化内存的使用。堆内内存收到JVM统一管理，堆外内存是直接向操作系统进行内存阅读全文

posted @ 2020-05-13 22:23 Q1Zhen 阅读(87) 评论(0) 推荐(0) 编辑

2020年5月12日

Yarn部署流程详解

摘要：一、Spark on YARN cluster 模式作业运行全过程分析下面是分析Spark on YARN的Cluster模式，从用户提交作业到作业运行结束整个运行期间的过程分析。客户端进行操作 1、根据yarnConf来初始化yarnClient，并启动yarnClient 2、创建客户端Ap 阅读全文

posted @ 2020-05-12 21:11 Q1Zhen 阅读(2821) 评论(0) 推荐(0) 编辑

SparkStream（二）

摘要：有状态和无状态无状态：仅限对收集周期内数据进行处理有状态：将本次收集周期与前面的所有收集周期获得的数据统一进行处理，两个周期内的数据合并过程类似于SparkSQL中自定义聚合函数的buffer。窗口函数 window operations可以设置窗口的大小和华东窗口的间隔来动态的获取当前Str 阅读全文

posted @ 2020-05-12 15:15 Q1Zhen 阅读(108) 评论(0) 推荐(0) 编辑

Spark Streaming（一）

摘要：微批处理伪实时处理数据源 1.非自定义数据源 2.自定义数据源自定义收集器，集成Receiver 使用自定义收集器阅读全文

posted @ 2020-05-12 13:16 Q1Zhen 阅读(103) 评论(0) 推荐(0) 编辑

ACID

摘要：原文链接：https://blog.csdn.net/dengjili/article/details/82468576 原子性（Atomicity）原子性是指事务是一个不可分割的工作单位，事务中的操作要么都发生，要么都不发生。一致性（Consistency）事务前后数据的完整性必须保持一致。阅读全文

posted @ 2020-05-12 10:42 Q1Zhen 阅读(148) 评论(0) 推荐(0) 编辑

2020年5月11日

SparkSQL

摘要：数据源 SparkSQL默认数据源为Parquet格式（面向列存储）。将其他格式转换为Parquet后再读取同样如果是保存,要将格式先进行转换，否则保存下来的数据为Parquet格式 df.write.format("json").mode("append").save(path) 1.从MyS 阅读全文

posted @ 2020-05-11 17:04 Q1Zhen 阅读(122) 评论(0) 推荐(0) 编辑

2020年5月9日

scala样例类

摘要： case类在模式匹配和actor中经常使用到，当一个类被定义成为case类后，Scala会自动帮你创建一个伴生对象并帮你实现了一系列方法且带来了不少好处，如下： 1.实现了apply方法，意味着你不需要使用new关键字就能创建该类对象 ? 1 2 3 4 5 scala case class Peo 阅读全文

posted @ 2020-05-09 23:32 Q1Zhen 阅读(285) 评论(0) 推荐(0) 编辑

centos7 防火墙有关命令

摘要： 1，查看防火墙状态： firewall cmd state systemctl status firewalld.service 2，开启防火墙： systemctl start firewalld.service 3，设置开机自启： systemctl enable firewalld.ser 阅读全文

posted @ 2020-05-09 16:17 Q1Zhen 阅读(97) 评论(0) 推荐(0) 编辑

HBase优化

摘要：高可用保证HMaster存在 1.在hbase/conf目录下创建backup masters文件 2.在backup masters文件中配置高可用的HMaster节点 3.将整个conf目录传输到其他节点预分区每一个region维护着StartRow与EndRow，如果加入的数据符合某个R 阅读全文

posted @ 2020-05-09 01:21 Q1Zhen 阅读(94) 评论(0) 推荐(0) 编辑

2020年5月8日

scp

摘要：一般情况，本地网络跟远程网络进行数据交抱，或者数据迁移，常用的有三种方法，一是ftp,二是wget /fetch 三是，rsync 大型数据迁移用rysync，其次用fetch/wget ，最次是ftp，最慢是ftp.这几天，在忙数据迁移时，用到ssh的scp方法来迁移数据。速度与效果都很好。特别是阅读全文

posted @ 2020-05-08 23:59 Q1Zhen 阅读(99) 评论(0) 推荐(0) 编辑

QZhen

公告