摘要: synchronized 锁定的是一个对象,执行某段代码的时候必须锁定一个对象,不锁定就无法执行 一、概念介绍 1.1 用户态与内核态 内核态(kener):内核/操作系统可以做的一些操作。 用户态(APP):用户的程序可以做的一些操作。 用户态的程序要访问一些比较危险的操作的时候,比如格式化硬盘或 阅读全文
posted @ 2020-05-17 15:18 abc十号 阅读(679) 评论(0) 推荐(0) 编辑
摘要: 官网介绍 一、canal admin的安装 下载、解压、创建软连接 修改配置 conf/application.yml server: port: 8089 spring: jackson: date-format: yyyy-MM-dd HH:mm:ss time-zone: GMT+8 # 元数 阅读全文
posted @ 2020-05-14 14:54 abc十号 阅读(10772) 评论(0) 推荐(0) 编辑
摘要: canal 官方文档 一、canal安装(1.1.4) 下载安装包,解压,创建软连接。 修改配置文件。 2.1 canal.properties # 可选项: tcp(默认), kafka, RocketMQ canal.serverMode = kafka # kafka/rocketmq 集群配 阅读全文
posted @ 2020-05-13 11:56 abc十号 阅读(3099) 评论(0) 推荐(0) 编辑
摘要: 官网说明:http://spark.apache.org/docs/2.1.1/tuning.html#data-serialization 一、JVM调优 1.1、Java虚拟机垃圾回收调优的背景 如果在持久化RDD的时候,持久化了大量的数据,那么Java虚拟机的垃圾回收就可能成为一个性能瓶颈。因 阅读全文
posted @ 2020-05-11 11:03 abc十号 阅读(1143) 评论(0) 推荐(1) 编辑
摘要: 一、Hive-sql 常用优化 MapReduce 流程: Input->split->map->buffer(此处调整其大小)->spill->spill过多合并->merge->combine(减少reduce压力)->shuffle(copy、merge)->spill->disk->redu 阅读全文
posted @ 2020-05-10 23:25 abc十号 阅读(2544) 评论(1) 推荐(0) 编辑
摘要: 一、Hbase的优化 1.1、Rowkey的设计 Rowkey相当于Hbase中数据的主键,同时在底层存储的时候也是根据Rowkey划分region分布到不同的HregionService节点中。所以Rowkey的设计十分关键。 HBase中的Rowkey按字典顺序排序。可以使相关行彼此靠近存储。如 阅读全文
posted @ 2020-05-09 21:02 abc十号 阅读(266) 评论(0) 推荐(0) 编辑
摘要: 一、Hbase介绍 1.1、对Hbase的认识 HBase作为面向列的数据库运行在HDFS之上,HDFS缺乏随机读写操作,HBase正是为此而出现。 HBase参考 Google 的 Bigtable 实现,以键值对的形式存储。项目的目标就是快速在主机内数十亿行数据中定位所需的数据并访问它。 HBa 阅读全文
posted @ 2020-05-09 18:54 abc十号 阅读(715) 评论(0) 推荐(0) 编辑
摘要: 原文地址:https://zhuanlan.zhihu.com/p/34426768 一、概述 垃圾收集 Garbage Collection 通常被称为“GC”,它诞生于1960年 MIT 的 Lisp 语言,经过半个多世纪,目前已经十分成熟了。 jvm 中,程序计数器、虚拟机栈、本地方法栈都是随 阅读全文
posted @ 2020-05-08 19:01 abc十号 阅读(212) 评论(0) 推荐(0) 编辑
摘要: 一、JVM内存结构 1.1、栈(JVM Stacks) 存放局部变量(定义在方法中的变量和定义在方法参数列表上的变量)、对象引用(reference类型,它不等同于对象本身,根据不同的虚拟机实现,它可能是一个指向对象起始地址的引用指针,也可能指向一个代表对象的句柄或者其他与此对象相关的位置)、方法的 阅读全文
posted @ 2020-05-08 15:58 abc十号 阅读(369) 评论(0) 推荐(1) 编辑
摘要: 原文链接:https://zhuanlan.zhihu.com/p/34426768 一、类的加载 类的加载指的是将类的.class文件中的二进制数据读入到内存中,将其放在运行时数据区的方法区内,然后在堆区创建一个 java.lang.Class对象,用来封装类在方法区内的数据结构。 类的加载的最终 阅读全文
posted @ 2020-05-07 19:44 abc十号 阅读(189) 评论(0) 推荐(0) 编辑
摘要: 要在集群上的Spark Streaming应用程序中获得最佳性能,需要进行一些调整。调整主要考虑两个方面: 通过有效地使用群集资源来减少每批数据的处理时间。 Spark可以进行许多优化,以最大程度地减少每批的处理时间。因为Spark streaming的DStream其实就是一组RDD的集合,所以对 阅读全文
posted @ 2020-05-05 21:13 abc十号 阅读(354) 评论(0) 推荐(0) 编辑
摘要: 参考链接:http://spark.apache.org/docs/latest/streaming-programming-guide.html 一、Spark Streaming 介绍 Spark Streaming是核心Spark API的扩展,可实现实时数据流的可伸缩,高吞吐量,容错流处理。 阅读全文
posted @ 2020-05-05 15:32 abc十号 阅读(350) 评论(0) 推荐(0) 编辑
摘要: 梳理一下Spark中关于并发度涉及的几个概念: 输入可能以多个文件的形式存储在HDFS上,每个File都包含了很多块,称为Block。当Spark读取这些文件作为输入时,会根据具体数据格式对应的InputFormat进行解析,一般是将若干个Block合并成一个输入分片,称为InputSplit,注意 阅读全文
posted @ 2020-05-04 17:14 abc十号 阅读(627) 评论(1) 推荐(0) 编辑
摘要: 一、共性 1.1、RDD 从一开始 RDD 就是 Spark 提供的面向用户的主要 API。从根本上来说,一个 RDD 就是你的数据的一个不可变的分布式元素集合,在集群中跨节点分布,可以通过若干提供了转换和处理的底层 API 进行并行处理。关于RDD的详细介绍可以参考这篇文章:https://www 阅读全文
posted @ 2020-05-04 16:46 abc十号 阅读(1007) 评论(0) 推荐(0) 编辑
摘要: 一、spark的序列化 1.1、官网解释 http://spark.apache.org/docs/2.1.1/tuning.html#data-serialization 序列化在任何分布式应用程序的性能中起着重要作用。将对象序列化或消耗大量字节的速度慢的格式将大大减慢计算速度。通常,这将是您应该 阅读全文
posted @ 2020-05-03 00:40 abc十号 阅读(696) 评论(0) 推荐(0) 编辑