kafka 事务代码实现(生产者到server端的事务)
摘要:kafka的事务指的是2个点 ① 生产者到kafka服务端的事务保障 ②消费者从kafka拉取数据的事务 kafka提供的事务机制是 第①点, 对于第②点来说 只能自己在消费端实现幂等性。 我们来介绍第①点, 因为生产者producer写到kafka可能会出现消息重复,比如 设置ack=all,写入
阅读全文
linux配置vnc server,并用vnc viewer连接server
摘要:做过Linux运维的朋友都知道,我们一般很少直接与服务器接触。都是通过终端来连接处理一些事物。 本人常用的终端有图形界面的是vnc viewer还有命令行界面xshell,当然各有千秋,喜欢使用哪个都可以。 下面简单介绍一下,使用vncserver 连接Linux的操作步骤。 1.Linux安装 v
阅读全文
Spark分区数、task数目、core数目、worker节点数目、executor数目梳理
摘要:Spark分区数、task数目、core数目、worker节点数目、executor数目梳理 spark隐式创建由操作组成的逻辑上的有向无环图。驱动器执行时,它会把这个逻辑图转换为物理执行计划,然后将逻辑计划转换为一系列的步骤(stage),每个步骤由多个任务组成。 步骤组成任务、数据组成任务。所以
阅读全文
spark conf的3种配置优先级
摘要:在SparkConf上设置的属性具有最高的优先级,其次是传递给spark-submit或者spark-shell的属性值,最后是spark-defaults.conf文件中的属性值
阅读全文
spark submit local遇到路径hdfs的问题
摘要:有时候第一次执行 spark submit --master local[*] 单机模式的时候,可以对linux本地路径进行输出。但是有时候提交到yarn的时候,是自动加上hdfs的路径这没问题, 但是接下来在执行 local模式的时候 出现问题了,本地绝对路径也自动加上了hdfs://的前缀。 那
阅读全文