随笔分类 -  滴滴

摘要:#!/bin/bash #队列名 根据yarn的队列提交 realtime_queue=root #提交的任务名 my_job_name="OrderQZ" spark-shell --master yarn --deploy-mode client \ --queue $realtime_queu 阅读全文
posted @ 2020-03-25 23:59 夜半钟声到客船 阅读(3209) 评论(1) 推荐(1) 编辑
摘要:一.sparksql读取数据源的过程 1.spark目前支持读取jdbc,hive,text,orc等类型的数据,如果要想支持hbase或者其他数据源,就必须自定义 2.读取过程 (1)sparksql进行 session.read.text()或者 session.read .format("te 阅读全文
posted @ 2020-03-04 22:40 夜半钟声到客船 阅读(3373) 评论(4) 推荐(0) 编辑
摘要:1、为什么开启动态资源分配 ⽤户提交Spark应⽤到Yarn上时,可以通过spark-submit的num-executors参数显示地指定executor 个数,随后,ApplicationMaster会为这些executor申请资源,每个executor作为⼀个Container在 Yarn上运 阅读全文
posted @ 2020-02-20 12:58 夜半钟声到客船 阅读(3223) 评论(0) 推荐(1) 编辑
摘要:sparkUi的4040界面已经有了运行监控指标,为什么我们还要自定义存入redis? 1.结合自己的业务,可以将监控页面集成到自己的数据平台内,方便问题查找,邮件告警 2.可以在sparkUi的基础上,添加一些自己想要指标统计 一、spark的SparkListenersparkListener是 阅读全文
posted @ 2020-02-17 00:30 夜半钟声到客船 阅读(1968) 评论(0) 推荐(0) 编辑
摘要:triftserver是基于jdbc的一个spark的服务,可以做web查询,多客户端访问,但是thriftserver没有高可用,服务挂掉后就无法在访问,所有使用注册到zk的方式来实现高可用 一.版本 scala:2.11 spark:2.2.1 spark的源码地址:https://archiv 阅读全文
posted @ 2020-02-14 15:05 夜半钟声到客船 阅读(1574) 评论(0) 推荐(0) 编辑
摘要:1.并行度 在direct方式下,sparkStreaming的task数量是等于kafka的分区数,kakfa单个分区的一般吞吐量为10M/s 常规设计下:kafka的分区数一般为broken节点的3,6,9倍比较合理 比如我的集群有6个broken节点,创建kafka的分区为18个,sparkS 阅读全文
posted @ 2020-02-12 16:42 夜半钟声到客船 阅读(1848) 评论(0) 推荐(0) 编辑
摘要:1、业务库痛点及解决⽅案 初期出⾏业务的订单相关,是以mysql作为业务库为基准的,但是随着业务线增多,每⽇新增数据指 数上涨,⼏乎在每天的⾼峰期期间,都会出现业务库所在服务器的cpu、IO、内存等跑满。经业务排 查发现,线上每天有定时任务都在查询业务库,从⽽导致业务库经常cpu使⽤情况是柱状⽅式 阅读全文
posted @ 2020-01-14 22:21 夜半钟声到客船 阅读(680) 评论(0) 推荐(0) 编辑
摘要:四、在全部的六边形区域内过滤出合适的区域作为虚拟车站点 实现方式: 对历史库的订单数据进行汇总,选出某个区域的订单数大于某个阈值(比如100) 代码实现: //1.创建h3实例 val h3 = H3Core.newInstance //2.经纬度转换成hash值 def locationToH3( 阅读全文
posted @ 2020-01-13 01:05 夜半钟声到客船 阅读(644) 评论(0) 推荐(0) 编辑
摘要:一.如果有一批数据,知道某个主键比如ip地址、人的身份证、车牌、订单以及经纬度信息 那可以做出哪些事情? 1.某个ip对应的经纬度在哪个地区? 1.某个人出现的经纬度,根据人与经纬度关系,形成出行轨迹 3.某车牌或者车架对应的经纬度信息,车辆轨迹,借助地图做出,可以做交通数据应用 4.某个地区的订单 阅读全文
posted @ 2020-01-09 00:46 夜半钟声到客船 阅读(1254) 评论(0) 推荐(0) 编辑
摘要:kafka版本:<kafka.version> 0.8.2.1</kafka.version> spark版本 <artifactId>spark-streaming-kafka-0-8_2.11</artifactId> object DmRealStat { def main(args: Arr 阅读全文
posted @ 2019-12-22 20:57 夜半钟声到客船 阅读(488) 评论(0) 推荐(0) 编辑
摘要:kafka版本 1.0.0 spark版本 spark-streaming-kafka-0-10_2.11/** * @created by imp ON 2019/12/21 */class KafkaManagerByRedis(zkHost:String,kafkaParams: Map[St 阅读全文
posted @ 2019-12-22 20:54 夜半钟声到客船 阅读(610) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示