2020年2月21日

DStream-01 DStream的原理和源码

摘要: Demo Spark 源码分析 StreamingContext 整个Dstream 类似RDD "懒加载" ,出发点就是 streamingContext.start()。 为了方便查看,我去掉了一些其他代码,只保留关键逻辑代码 JobScheduler 点开 scheduler.start() 阅读全文

posted @ 2020-02-21 16:39 chouc 阅读(327) 评论(0) 推荐(0) 编辑

2019年12月21日

Spark两种内存管理

摘要: Spark动态内存管理 Spark 1.6 后改为动态内存管理(如果想启用静态内存管理,方法下面会介绍),启动动态主要体现在 存储内存和执行内存的动态。 动态内存管理内存中分为两大块和预留内存 用于用户数据结构和spark 元数据 的内存,默认占用整个内存的0.4 用于执行task 和 数据存储的内 阅读全文

posted @ 2019-12-21 15:59 chouc 阅读(552) 评论(0) 推荐(0) 编辑

2019年11月19日

HDFS

摘要: 存储模型:字节 文件线性切割成块(Block):偏移量 offset (byte) Block分散存储在集群节点中 单一文件Block大小一致,文件与 文件可以不一致 Block可以设置副本数,副本分散在不同节点中 副本数不要超过节点数量 文件上传可以设置Block大小和副本数 已上传的文件Bloc 阅读全文

posted @ 2019-11-19 18:50 chouc 阅读(171) 评论(0) 推荐(0) 编辑

Hbase

摘要: 简介 Hbase Hadoop Database,是一个高可靠性、高性能、面向列、可伸缩、实时读写的分布式数据库 Hbase Hadoop Database,是一个高可靠性、高性能、面向列、可伸缩、实时读写的分布式数据库 利用Hadoop HDFS作为其文件存储系统,利用Hadoop MapRedu 阅读全文

posted @ 2019-11-19 18:48 chouc 阅读(172) 评论(0) 推荐(0) 编辑

2019年8月10日

Clickhouse 性能瓶颈排查 IO过高

摘要: 前几天公司clickhouse 有个查询很慢。经理一直追问为什么慢 是cpu 不够 还是IO 占用太高,还是其他的原因。于是有了以下的排查 执行该条,在不考虑优化sql 的情况下 进行性能排查 1、首先便是万能的 top第三行CPU信息统计数据: %Cpu(s): 0.3 us, 0.2 sy, 0 阅读全文

posted @ 2019-08-10 12:01 chouc 阅读(14108) 评论(0) 推荐(0) 编辑

2019年8月6日

Spark-源码分析03-SubmitTask

摘要: 1.Rdd rdd中 reduce、fold、aggregate、collect、count这些方法 都会调用 sparkContext.runJob ,这些方法称之为Action 触发提交Job def reduce(f: (T, T) => T): T = withScope { val cle 阅读全文

posted @ 2019-08-06 22:45 chouc 阅读(402) 评论(0) 推荐(0) 编辑

Spark-源码分析02-Luanch Executor

摘要: 1.SparkContext.scala sparkcontext 在被new的时候,会执行class中的代码 其中有一个就是创建TaskScheduler 和 SchedulerBackend,而SchedulerBackend 就是driver 和 外界通信的,我理解SchedulerBacke 阅读全文

posted @ 2019-08-06 17:09 chouc 阅读(306) 评论(0) 推荐(0) 编辑

2019年6月1日

Guava com.google.common.base.Stopwatch Spark程序在yarn中 MethodNotFound

摘要: 今天在公司提交一个Spark 读取hive中的数据,写入JanusGraph 的app,自己本地调试没有问题,放入环境中提交到yarn 中时,发现app 跑不起。 yarn 中日志,也比较明显,app引用到 janusGraph 中的 StandardIDPool 找不到StopWatch.clas 阅读全文

posted @ 2019-06-01 15:37 chouc 阅读(1328) 评论(0) 推荐(0) 编辑

2019年5月18日

Spark-源码分析01-Luanch Driver

摘要: 1.SparkSubmit.scala 什么是Driver 呢?其实application运行的进程 就是driver,也是我们所写的代码就是Driver。 object DefaultPartitionsNum { def main(args: Array[String]): Unit = { v 阅读全文

posted @ 2019-05-18 14:37 chouc 阅读(239) 评论(0) 推荐(0) 编辑

2018年10月8日

Hive安装

摘要: 一、简介 HIVE 是一个数据仓库,说白了就是把一些数据结构化的文件,映射成一张表,并且提供sql 接口去查询对应的数据。简单的查询不会经过mapreduce,涉及到排序之类,会生成一个hadoop 中的一个map reduce任务去执行。海量的数据文件都输存放在hdfs 中,所以hive 依赖于h 阅读全文

posted @ 2018-10-08 18:23 chouc 阅读(142) 评论(0) 推荐(0) 编辑

导航