02 2020 档案

摘要:1、为什么开启动态资源分配 ⽤户提交Spark应⽤到Yarn上时,可以通过spark-submit的num-executors参数显示地指定executor 个数,随后,ApplicationMaster会为这些executor申请资源,每个executor作为⼀个Container在 Yarn上运 阅读全文
posted @ 2020-02-20 12:58 夜半钟声到客船 阅读(3223) 评论(0) 推荐(1) 编辑
摘要:sparkUi的4040界面已经有了运行监控指标,为什么我们还要自定义存入redis? 1.结合自己的业务,可以将监控页面集成到自己的数据平台内,方便问题查找,邮件告警 2.可以在sparkUi的基础上,添加一些自己想要指标统计 一、spark的SparkListenersparkListener是 阅读全文
posted @ 2020-02-17 00:30 夜半钟声到客船 阅读(1968) 评论(0) 推荐(0) 编辑
摘要:triftserver是基于jdbc的一个spark的服务,可以做web查询,多客户端访问,但是thriftserver没有高可用,服务挂掉后就无法在访问,所有使用注册到zk的方式来实现高可用 一.版本 scala:2.11 spark:2.2.1 spark的源码地址:https://archiv 阅读全文
posted @ 2020-02-14 15:05 夜半钟声到客船 阅读(1574) 评论(0) 推荐(0) 编辑
摘要:1.并行度 在direct方式下,sparkStreaming的task数量是等于kafka的分区数,kakfa单个分区的一般吞吐量为10M/s 常规设计下:kafka的分区数一般为broken节点的3,6,9倍比较合理 比如我的集群有6个broken节点,创建kafka的分区为18个,sparkS 阅读全文
posted @ 2020-02-12 16:42 夜半钟声到客船 阅读(1848) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示