Q1Zhen - 博客园

2020年6月3日

摘要： #Yarn部署 #Sesssion-cluster Session-Cluster模式需要先启动集群，然后再提交作业，接着会向yarn申请一块空间后，资源永远保持不变。如果资源满了，下一个作业就无法提交，只能等到yarn中的其中一个作业执行完成后，释放资源，下个作业才会正常提交所有作业共享Dispa 阅读全文

posted @ 2020-06-03 22:48 Q1Zhen 阅读(286) 评论(0) 推荐(0) 编辑

2020年6月1日

Docker和K8S

摘要：本文来源：鲜枣课堂 2010年，几个搞IT的年轻人，在美国旧金山成立了一家名叫“dotCloud”的公司。这家公司主要提供基于PaaS的云计算技术服务。具体来说，是和LXC有关的容器技术。 LXC，就是Linux容器虚拟技术（Linux container）后来，dotCloud公司将自己的容器阅读全文

posted @ 2020-06-01 22:53 Q1Zhen 阅读(110) 评论(0) 推荐(0) 编辑

springboot访问template下的html页面

摘要：一、template下文件不允许直接访问 1、查资料得知：springboot项目默认是不允许直接访问template下的文件的，是受保护的。所以想访问template下的html页面，我们可以配置视图解析器。 2、如果想要用视图去展示，应该要设置好视图展示页面，比如说用一个模板语言来接收返回的数阅读全文

posted @ 2020-06-01 09:06 Q1Zhen 阅读(1954) 评论(0) 推荐(0) 编辑

2020年5月30日

scala Object

摘要： Object 在scala中被object关键字修饰的类有如下特征： 1、是单例的 2、不需要通过new来创建对象，直接通过类名创建 3、没有有参的主构造器，但是有主构造代码块（不包含在任何方法中的代码，就是object的主构造代码块） 4、通常用于封装一些常量、工具类、枚举和隐式转换函数 5、主构阅读全文

posted @ 2020-05-30 17:02 Q1Zhen 阅读(177) 评论(0) 推荐(0) 编辑

2020年5月29日

Spark分区

摘要：一、Spark数据分区方式简要在Spark中，RDD（Resilient Distributed Dataset）是其最基本的抽象数据集，其中每个RDD是由若干个Partition组成。在Job运行期间，参与运算的Partition数据分布在多台机器的内存当中。这里可将RDD看成一个非常大的数组，阅读全文

posted @ 2020-05-29 20:34 Q1Zhen 阅读(152) 评论(0) 推荐(0) 编辑

2020年5月28日

Controller

摘要： #控制器选举 Kafka 当前选举控制器的规则是：Kafka 集群中第一个启动的 broker 通过在 ZooKeeper 里创建一个临时节点 /controller 让自己成为 controller 控制器。其他 broker 在启动时也会尝试创建这个节点，但是由于这个节点已存在，所以后面想要创建阅读全文

posted @ 2020-05-28 23:32 Q1Zhen 阅读(704) 评论(0) 推荐(0) 编辑

2020年5月26日

消费者端

摘要： #消息队列两种模式 1.点对点：一对一，消费者主动拉取数据，消息收到后消息清除 2.发布/订阅模式：一对多，消费者消费数据之后不会消除消息推-->以同样的方式传给消费者，可能导致消费者资源处理不足或消费者资源浪费（不同消费者处理能力不一样）拉取-->消费者要不断轮询队列中是否有消息 #基础架构阅读全文

posted @ 2020-05-26 16:44 Q1Zhen 阅读(103) 评论(0) 推荐(0) 编辑

2020年5月25日

Producer

摘要： #分区策略 1.分区原因方便在集群中扩展，每个分区可以通过调整以适应它所在的机器，而每个topic又可以由多个分区组成，因此整个集群就可以适应任意大小的数据了可以提高并发，，以分区为单位进行读写 2.分区原则指明分区的情况下，直接将指明的值作为分区的值没有指明分区，但有key的情况下，将ke 阅读全文

posted @ 2020-05-25 00:34 Q1Zhen 阅读(179) 评论(0) 推荐(0) 编辑

2020年5月24日

kafka群启脚本

摘要： ```shell #!/bin/bash case $1 in "start"){ for i in hadoop120 hadoop121 hadoop 122 do echo "************$i*************" ssh $i "/.../kafka/bin/kafka-server-start.sh -daemon /.../kafka/config/server.pr 阅读全文

posted @ 2020-05-24 19:27 Q1Zhen 阅读(87) 评论(0) 推荐(0) 编辑

2020年5月23日

表优化

摘要： 1.小表、大表join 将key相对分散，并且小表放在join左边，减少内存溢出的几率，也可以用mapjoin让小表先进内存，在map端完成reduce。新版hive已经对这做了优化，大小表在join左边或者右边差不多 2.大表join大表空key过滤 join操作在相同key数据太多时会将数据阅读全文

posted @ 2020-05-23 21:01 Q1Zhen 阅读(150) 评论(0) 推荐(0) 编辑

QZhen

公告