abc十号 - 博客园

2020年5月17日

摘要： synchronized 锁定的是一个对象，执行某段代码的时候必须锁定一个对象，不锁定就无法执行一、概念介绍 1.1 用户态与内核态内核态（kener）：内核/操作系统可以做的一些操作。用户态（APP）：用户的程序可以做的一些操作。用户态的程序要访问一些比较危险的操作的时候，比如格式化硬盘或阅读全文

posted @ 2020-05-17 15:18 abc十号阅读(686) 评论(0) 推荐(0) 编辑

2020年5月14日

2、canal admin 的搭建和使用

摘要：官网介绍一、canal admin的安装下载、解压、创建软连接修改配置 conf/application.yml server: port: 8089 spring: jackson: date-format: yyyy-MM-dd HH:mm:ss time-zone: GMT+8 # 元数阅读全文

posted @ 2020-05-14 14:54 abc十号阅读(11141) 评论(0) 推荐(0) 编辑

2020年5月13日

1、canal数据投递至kafka

摘要： canal 官方文档一、canal安装（1.1.4）下载安装包，解压，创建软连接。修改配置文件。 2.1 canal.properties # 可选项: tcp(默认), kafka, RocketMQ canal.serverMode = kafka # kafka/rocketmq 集群配阅读全文

posted @ 2020-05-13 11:56 abc十号阅读(3247) 评论(0) 推荐(0) 编辑

2020年5月11日

spark系列-7、spark调优

摘要：官网说明：http://spark.apache.org/docs/2.1.1/tuning.html#data-serialization 一、JVM调优 1.1、Java虚拟机垃圾回收调优的背景如果在持久化RDD的时候，持久化了大量的数据，那么Java虚拟机的垃圾回收就可能成为一个性能瓶颈。因阅读全文

posted @ 2020-05-11 11:03 abc十号阅读(1178) 评论(0) 推荐(1) 编辑

2020年5月10日

3、Hive-sql优化，数据倾斜处理

摘要：一、Hive-sql 常用优化 MapReduce 流程： Input->split->map->buffer(此处调整其大小)->spill->spill过多合并->merge->combine(减少reduce压力)->shuffle(copy、merge)->spill->disk->redu 阅读全文

posted @ 2020-05-10 23:25 abc十号阅读(2623) 评论(1) 推荐(0) 编辑

2020年5月9日

3、Hbase优化，数据结构

摘要：一、Hbase的优化 1.1、Rowkey的设计 Rowkey相当于Hbase中数据的主键，同时在底层存储的时候也是根据Rowkey划分region分布到不同的HregionService节点中。所以Rowkey的设计十分关键。 HBase中的Rowkey按字典顺序排序。可以使相关行彼此靠近存储。如阅读全文

posted @ 2020-05-09 21:02 abc十号阅读(279) 评论(0) 推荐(0) 编辑

1、Hbase原理分析

摘要：一、Hbase介绍 1.1、对Hbase的认识 HBase作为面向列的数据库运行在HDFS之上，HDFS缺乏随机读写操作，HBase正是为此而出现。 HBase参考 Google 的 Bigtable 实现，以键值对的形式存储。项目的目标就是快速在主机内数十亿行数据中定位所需的数据并访问它。 HBa 阅读全文

posted @ 2020-05-09 18:54 abc十号阅读(735) 评论(0) 推荐(0) 编辑

2020年5月8日

JVM系列-3、GC算法，垃圾收集器

摘要：原文地址：https://zhuanlan.zhihu.com/p/34426768 一、概述垃圾收集 Garbage Collection 通常被称为“GC”，它诞生于1960年 MIT 的 Lisp 语言，经过半个多世纪，目前已经十分成熟了。 jvm 中，程序计数器、虚拟机栈、本地方法栈都是随阅读全文

posted @ 2020-05-08 19:01 abc十号阅读(213) 评论(0) 推荐(0) 编辑

JVM系列-2、JVM内存结构

摘要：一、JVM内存结构 1.1、栈（JVM Stacks）存放局部变量（定义在方法中的变量和定义在方法参数列表上的变量）、对象引用（reference类型，它不等同于对象本身，根据不同的虚拟机实现，它可能是一个指向对象起始地址的引用指针，也可能指向一个代表对象的句柄或者其他与此对象相关的位置）、方法的阅读全文

posted @ 2020-05-08 15:58 abc十号阅读(371) 评论(0) 推荐(1) 编辑

2020年5月7日

JVM系列-1、java类的加载机制

摘要：原文链接：https://zhuanlan.zhihu.com/p/34426768 一、类的加载类的加载指的是将类的.class文件中的二进制数据读入到内存中，将其放在运行时数据区的方法区内，然后在堆区创建一个 java.lang.Class对象，用来封装类在方法区内的数据结构。类的加载的最终阅读全文

posted @ 2020-05-07 19:44 abc十号阅读(192) 评论(0) 推荐(0) 编辑

2020年5月5日

spark系列-9、Spark Streaming调优

摘要：要在集群上的Spark Streaming应用程序中获得最佳性能，需要进行一些调整。调整主要考虑两个方面：通过有效地使用群集资源来减少每批数据的处理时间。 Spark可以进行许多优化，以最大程度地减少每批的处理时间。因为Spark streaming的DStream其实就是一组RDD的集合，所以对阅读全文

posted @ 2020-05-05 21:13 abc十号阅读(369) 评论(0) 推荐(0) 编辑

spark系列-8、Spark Streaming

摘要：参考链接：http://spark.apache.org/docs/latest/streaming-programming-guide.html 一、Spark Streaming 介绍 Spark Streaming是核心Spark API的扩展，可实现实时数据流的可伸缩，高吞吐量，容错流处理。阅读全文

posted @ 2020-05-05 15:32 abc十号阅读(358) 评论(0) 推荐(0) 编辑

2020年5月4日

spark系列-6、对Application，Driver，Job，Task，Stage的理解

摘要：梳理一下Spark中关于并发度涉及的几个概念：输入可能以多个文件的形式存储在HDFS上，每个File都包含了很多块，称为Block。当Spark读取这些文件作为输入时，会根据具体数据格式对应的InputFormat进行解析，一般是将若干个Block合并成一个输入分片，称为InputSplit，注意阅读全文

posted @ 2020-05-04 17:14 abc十号阅读(672) 评论(1) 推荐(0) 编辑

spark系列-5、RDD、DataFrame、Dataset的区别和各自的优势

摘要：一、共性 1.1、RDD 从一开始 RDD 就是 Spark 提供的面向用户的主要 API。从根本上来说，一个 RDD 就是你的数据的一个不可变的分布式元素集合，在集群中跨节点分布，可以通过若干提供了转换和处理的底层 API 进行并行处理。关于RDD的详细介绍可以参考这篇文章：https://www 阅读全文

posted @ 2020-05-04 16:46 abc十号阅读(1055) 评论(0) 推荐(0) 编辑

2020年5月3日

spark系列-4、spark序列化方案、GC对spark性能的影响

摘要：一、spark的序列化 1.1、官网解释 http://spark.apache.org/docs/2.1.1/tuning.html#data-serialization 序列化在任何分布式应用程序的性能中起着重要作用。将对象序列化或消耗大量字节的速度慢的格式将大大减慢计算速度。通常，这将是您应该阅读全文

posted @ 2020-05-03 00:40 abc十号阅读(714) 评论(0) 推荐(0) 编辑

@zl

公告