摘要:Driver: ①、driver进程就是应用的main()函数并且构建sparkContext对象,当我们提交了应用之后,便会启动一个对应的driver进程,driver本身会根据我们设置的参数占有一定的资源(主要指cpu core和memory)。②、driver可以运行在master上,也可以运
阅读全文
摘要:直接top,再按1 可查看总核数或者使用如下命令: # 总核数 = 物理CPU个数 X 每颗物理CPU的核数 # 总逻辑CPU数 = 物理CPU个数 X 每颗物理CPU的核数 X 超线程数 # 查看物理CPU个数 cat /proc/cpuinfo| grep "physical id"| sort
阅读全文
摘要:shell命令查看进程id,并杀死进程,停止脚本
阅读全文
摘要:Flink CDC 2.0 正式发布,详解核心改进 主要针对一下Flink CDC 1.x 以下痛点做了改变: Flink CDC 1.x 可以不加锁,能够满足大部分场景,但牺牲了一定的数据准确性。Flink CDC 1.x 默认加全局锁,虽然能保证数据一致性,但存在上述 hang 住数据的风险。
阅读全文
摘要:Kafka 如何保证消息的消费顺序? 在Kafka中Partition(分区)是真正保存消息的地方,发送的消息都存放在这里。Partition(分区)又存在于Topic(主题)中,并且一个Topic(主题)可以指定多个Partition(分区)。 在Kafka中,只保证Partition(分区)内有
阅读全文
摘要:一、下载与安装 1.1、下载地址https://phoenix.apache.org/download.html#http://www.apache.org/dyn/closer.lua/phoenix/apache-phoenix-4.14.1-HBase-1.3/bin/apache-phoen
阅读全文
摘要:参考: https://www.runoob.com/design-pattern/design-pattern-tutorial.html 建造者模式: 场景1:(1)构造一个复杂的对象,包含很多的属性,有些属性构造的时候需要做一些校验,格式转换等可能各个部分经常面临着剧烈的变化。(2)比如:一个
阅读全文
摘要:DataFrame与RDD互操作 官网:https://spark.apache.org/docs/2.2.1/sql-programming-guide.html 1、DataFrame与RDD互操作之一:反射方式 (RDD ==> DataFrame ①建立样例类,②调用toDF方法) pack
阅读全文