上一页 1 2 3 4 5 6 7 8 9 10 ··· 14 下一页
摘要: 一、Shuffle优化项 1、Shuffle优化配置 - spark.shuffle.file.buffer 默认值:32k 参数说明:该参数用于设置shuffle write task的BufferedOutputStream的buffer缓冲大小。将数据写到磁盘文件之前,会先写入buffer缓冲 阅读全文
posted @ 2020-03-24 23:04 夜半钟声到客船 阅读(304) 评论(0) 推荐(0) 编辑
摘要: 1.线程安全问题的原因 因为 Java 中对静态变量的自增,自减并不是原子操作,要彻底理解,必须从字节码来进行分析 例如对于 i++ 而言(i 为静态变量),实际会产生如下的 JVM 字节码指令: 2.临界区 Critical Section 一个程序运行多个线程本身是没有问题的 问题出在多个线程访 阅读全文
posted @ 2020-03-24 21:53 夜半钟声到客船 阅读(375) 评论(0) 推荐(0) 编辑
摘要: 一、五种状态 这是从 操作系统 层面来描述的 1.【初始状态】仅是在语言层面创建了线程对象,还未与操作系统线程关联 2.【可运行状态】(就绪状态)指该线程已经被创建(与操作系统线程关联),可以由 CPU 调度执行 3.【运行状态】指获取了 CPU 时间片运行中的状态,当 CPU 时间片用完,会从【运 阅读全文
posted @ 2020-03-23 21:33 夜半钟声到客船 阅读(172) 评论(0) 推荐(0) 编辑
摘要: 一、栈与栈帧 Java Virtual Machine Stacks (Java 虚拟机栈) 我们都知道 JVM 中由堆、栈、方法区所组成,其中栈内存是给谁用的呢?其实就是线程,每个线程启动后,虚拟 机就会为其分配一块栈内存。 每个栈由多个栈帧(Frame)组成,对应着每次方法调用时所占用的内存 每 阅读全文
posted @ 2020-03-18 21:57 夜半钟声到客船 阅读(971) 评论(0) 推荐(0) 编辑
摘要: 一查看进程线程的方法 1.windows任务管理器可以查看进程和线程数,也可以用来杀死进程tasklist 查看进程taskkill 杀死进程2.linuxps -fe 查看所有进程 ps -fe |grep java 查看java相关进程 ps -fT -p <PID> 查看某个进程(PID)的所 阅读全文
posted @ 2020-03-17 21:51 夜半钟声到客船 阅读(164) 评论(0) 推荐(0) 编辑
摘要: 一.sparksql读取数据源的过程 1.spark目前支持读取jdbc,hive,text,orc等类型的数据,如果要想支持hbase或者其他数据源,就必须自定义 2.读取过程 (1)sparksql进行 session.read.text()或者 session.read .format("te 阅读全文
posted @ 2020-03-04 22:40 夜半钟声到客船 阅读(3284) 评论(4) 推荐(0) 编辑
摘要: 1、为什么开启动态资源分配 ⽤户提交Spark应⽤到Yarn上时,可以通过spark-submit的num-executors参数显示地指定executor 个数,随后,ApplicationMaster会为这些executor申请资源,每个executor作为⼀个Container在 Yarn上运 阅读全文
posted @ 2020-02-20 12:58 夜半钟声到客船 阅读(3130) 评论(0) 推荐(1) 编辑
摘要: sparkUi的4040界面已经有了运行监控指标,为什么我们还要自定义存入redis? 1.结合自己的业务,可以将监控页面集成到自己的数据平台内,方便问题查找,邮件告警 2.可以在sparkUi的基础上,添加一些自己想要指标统计 一、spark的SparkListenersparkListener是 阅读全文
posted @ 2020-02-17 00:30 夜半钟声到客船 阅读(1882) 评论(0) 推荐(0) 编辑
摘要: triftserver是基于jdbc的一个spark的服务,可以做web查询,多客户端访问,但是thriftserver没有高可用,服务挂掉后就无法在访问,所有使用注册到zk的方式来实现高可用 一.版本 scala:2.11 spark:2.2.1 spark的源码地址:https://archiv 阅读全文
posted @ 2020-02-14 15:05 夜半钟声到客船 阅读(1536) 评论(0) 推荐(0) 编辑
摘要: 1.并行度 在direct方式下,sparkStreaming的task数量是等于kafka的分区数,kakfa单个分区的一般吞吐量为10M/s 常规设计下:kafka的分区数一般为broken节点的3,6,9倍比较合理 比如我的集群有6个broken节点,创建kafka的分区为18个,sparkS 阅读全文
posted @ 2020-02-12 16:42 夜半钟声到客船 阅读(1822) 评论(0) 推荐(0) 编辑
上一页 1 2 3 4 5 6 7 8 9 10 ··· 14 下一页