使用Operator State方式
摘要:使用 operator state的方式有以下几种: 方式一: stateful function(RichFunction) 实现 CheckpointFunction 接口 必须实现两个方法:Void snapshotState(FunctionSnapshotContext context)
阅读全文
posted @
2020-06-27 21:03
风清_云淡
阅读(773)
推荐(0)
sparksql的三种join实现
摘要:join 是sql语句中的常用操作,良好的表结构能够将数据分散在不同的表中,使其符合某种范式,减少表冗余,更新容错等。而建立表和表之间关系的最佳方式就是Join操作。 sparksql作为大数据领域的sql实现,自然也对join操作做了不少优化,今天主要看一下在spark sql中对于join,常见
阅读全文
posted @
2020-06-15 09:10
风清_云淡
阅读(1820)
推荐(0)
kafka零数据丢失的配置方案
摘要:讨论一下kafka参数的配置 1、acks 参数配置 acks这个参数有三个值:0,1,-1,但是不用的参数对应的含义不同,那如果我们想要保证数据不丢失,acks 值应该设置为哪个参数呢? 0:代表生产者只要把消息发送出去以后就认为消息发送成功了,这种方式有可能会导致数据丢失,因为有可能消息发送到服
阅读全文
posted @
2020-06-14 18:15
风清_云淡
阅读(897)
推荐(0)
hdfs数据迁移
摘要:有时候可能会进行hadoop集群数据拷贝的情况,可用以下命令进行拷贝 需要在目标集群上来进行操作 hadoop distcp hdfs://192.168.1.233:8020/user/hive/warehouse/test_data.db/dwi_test_data_d /user/hive/w
阅读全文
posted @
2020-06-10 11:13
风清_云淡
阅读(401)
推荐(0)
Hadoop分布式资源管理器Yarn、MR运行机制剖析
摘要:介绍YARN组件的功能及应用场景 1、ResourceManager(RM) RM是一个全局的资源管理器,集群中只有一个。它负责整个Hadoop系统的资源管理和分配,包括处理客户端请求、启动监控 ApplicationMaster、监控NodeManager、 资源的分配与调度等。它主要由两个组件构
阅读全文
posted @
2020-06-08 11:06
风清_云淡
阅读(422)
推荐(0)