夜半钟声到客船

2020年3月24日

摘要：一、Shuffle优化项 1、Shuffle优化配置 - spark.shuffle.file.buffer 默认值：32k 参数说明：该参数用于设置shuffle write task的BufferedOutputStream的buffer缓冲大小。将数据写到磁盘文件之前，会先写入buffer缓冲阅读全文

posted @ 2020-03-24 23:04 夜半钟声到客船阅读(304) 评论(0) 推荐(0) 编辑

线程安全问题synchronized锁

摘要： 1.线程安全问题的原因因为 Java 中对静态变量的自增，自减并不是原子操作，要彻底理解，必须从字节码来进行分析例如对于 i++ 而言（i 为静态变量），实际会产生如下的 JVM 字节码指令： 2.临界区 Critical Section 一个程序运行多个线程本身是没有问题的问题出在多个线程访阅读全文

posted @ 2020-03-24 21:53 夜半钟声到客船阅读(375) 评论(0) 推荐(0) 编辑

2020年3月23日

线程的状态

摘要：一、五种状态这是从操作系统层面来描述的 1.【初始状态】仅是在语言层面创建了线程对象，还未与操作系统线程关联 2.【可运行状态】（就绪状态）指该线程已经被创建（与操作系统线程关联），可以由 CPU 调度执行 3.【运行状态】指获取了 CPU 时间片运行中的状态，当 CPU 时间片用完，会从【运阅读全文

posted @ 2020-03-23 21:33 夜半钟声到客船阅读(172) 评论(0) 推荐(0) 编辑

2020年3月18日

线程的运行原理

摘要：一、栈与栈帧 Java Virtual Machine Stacks （Java 虚拟机栈）我们都知道 JVM 中由堆、栈、方法区所组成，其中栈内存是给谁用的呢？其实就是线程，每个线程启动后，虚拟机就会为其分配一块栈内存。每个栈由多个栈帧（Frame）组成，对应着每次方法调用时所占用的内存每阅读全文

posted @ 2020-03-18 21:57 夜半钟声到客船阅读(971) 评论(0) 推荐(0) 编辑

2020年3月17日

线程与进程

摘要：一查看进程线程的方法 1.windows任务管理器可以查看进程和线程数，也可以用来杀死进程tasklist 查看进程taskkill 杀死进程2.linuxps -fe 查看所有进程 ps -fe |grep java 查看java相关进程 ps -fT -p <PID> 查看某个进程（PID）的所阅读全文

posted @ 2020-03-17 21:51 夜半钟声到客船阅读(164) 评论(0) 推荐(0) 编辑

2020年3月4日

SparkSql自定义数据源之读取的实现

摘要：一.sparksql读取数据源的过程 1.spark目前支持读取jdbc，hive,text,orc等类型的数据，如果要想支持hbase或者其他数据源，就必须自定义 2.读取过程（1）sparksql进行 session.read.text()或者 session.read .format("te 阅读全文

posted @ 2020-03-04 22:40 夜半钟声到客船阅读(3284) 评论(4) 推荐(0) 编辑

2020年2月20日

spark提交至yarn的的动态资源分配

摘要： 1、为什么开启动态资源分配⽤户提交Spark应⽤到Yarn上时，可以通过spark-submit的num-executors参数显示地指定executor 个数，随后，ApplicationMaster会为这些executor申请资源，每个executor作为⼀个Container在 Yarn上运阅读全文

posted @ 2020-02-20 12:58 夜半钟声到客船阅读(3130) 评论(0) 推荐(1) 编辑

2020年2月17日

spark的运行指标监控

摘要： sparkUi的4040界面已经有了运行监控指标，为什么我们还要自定义存入redis？ 1.结合自己的业务，可以将监控页面集成到自己的数据平台内，方便问题查找，邮件告警 2.可以在sparkUi的基础上，添加一些自己想要指标统计一、spark的SparkListenersparkListener是阅读全文

posted @ 2020-02-17 00:30 夜半钟声到客船阅读(1882) 评论(0) 推荐(0) 编辑

2020年2月14日

spark的thriftservr的高可用

摘要： triftserver是基于jdbc的一个spark的服务，可以做web查询，多客户端访问，但是thriftserver没有高可用，服务挂掉后就无法在访问，所有使用注册到zk的方式来实现高可用一.版本 scala:2.11 spark:2.2.1 spark的源码地址:https://archiv 阅读全文

posted @ 2020-02-14 15:05 夜半钟声到客船阅读(1536) 评论(0) 推荐(0) 编辑

2020年2月12日

sparkStreaming实时数据处理的优化方面

摘要： 1.并行度在direct方式下，sparkStreaming的task数量是等于kafka的分区数，kakfa单个分区的一般吞吐量为10M/s 常规设计下：kafka的分区数一般为broken节点的3,6,9倍比较合理比如我的集群有6个broken节点，创建kafka的分区为18个，sparkS 阅读全文

posted @ 2020-02-12 16:42 夜半钟声到客船阅读(1822) 评论(0) 推荐(0) 编辑

落霞与孤鹜齐飞

中山桥砖厂搬砖者

公告