二黑诶 - 博客园

2019年12月26日

摘要：一、Hbase基本原理 1、hbase基本介绍 HBASE是一个分布式的，面向列的开源数据库。Hbase的存储是基于hadoop的。因为Hadoop实现了一个分布式文件系统（HDFS），基于hadoop意味着hbase与生俱来的超强的扩展性和吞吐量，hbase采用的是key、value的存储方式。意阅读全文

posted @ 2019-12-26 17:20 二黑诶阅读(1976) 评论(0) 推荐(0) 编辑

2019年12月17日

小记--------sparksql和DataFrame的小小案例java、scala版本

摘要： sparksql是spark中的一个模块，主要用于进行结构化数据的处理，他提供的最核心的编程抽象，就是DataFrame。同时，sparksql还可以作为分布式的sql查询引擎。最最重要的功能就是从hive中查询数据。 Dataframe可以理解为：以列的形式组织的，分布式的数据集合。 Dataf 阅读全文

posted @ 2019-12-17 14:31 二黑诶阅读(425) 评论(0) 推荐(0) 编辑

小记--------spark的worker原理分析及源码分析

摘要： Worker类源码位置： org.apache.spark.deploy.worker /** *启动driver的源码分析 */ case LaunchDriver(driverId, driverDesc) => logInfo(s"Asked to launch driver $driverI 阅读全文

posted @ 2019-12-17 14:29 二黑诶阅读(319) 评论(0) 推荐(0) 编辑

小记--------sqoop的简单从mysql导入到hbase操作

摘要： sqoop import -D sqoop.hbase.add.row.key=true //是否将rowkey相关字段列入列族中，默认为false ；该参数必须在import之后 --connect jdbc:mysql://120.27.208.185/bigdatatest //连接mysql 阅读全文

posted @ 2019-12-17 14:26 二黑诶阅读(335) 评论(0) 推荐(0) 编辑

2019年12月11日

小记--------maxwell启动失败解决

摘要：查看报错日志信息：com.github.shyiko.mysql.binlog.network.ServerException: Could not find first log file name in binary log index file at com.github.shyiko.mysq 阅读全文

posted @ 2019-12-11 14:13 二黑诶阅读(2894) 评论(1) 推荐(1) 编辑

2019年12月1日

小记--------spark资源调度机制源码分析-----Schedule

摘要： Master类位置所在：spark-core_2.11-2.1.0.jar的org.apache.spark.deploy.master下的Master类 /** * driver调度机制原理代码分析Schedule the currently available resources among w 阅读全文

posted @ 2019-12-01 22:10 二黑诶阅读(239) 评论(0) 推荐(0) 编辑

小记--------spark的Master的Application注册机制源码分析及Master的注册机制原理分析

摘要：原理图解： Master类位置所在：spark-core_2.11-2.1.0.jar的org.apache.spark.deploy.master下的Master类 //截取了部分代码 //处理Application注册的请求 case RegisterApplication(descriptio 阅读全文

posted @ 2019-12-01 22:08 二黑诶阅读(180) 评论(0) 推荐(0) 编辑

2019年11月25日

小记--------spark的Master主备切换机制原理分析及源码分析

摘要： Master类位置所在：spark-core_2.11-2.1.0.jar的org.apache.spark.deploy.master下的Master类 /** *完成Master的主备切换，从字面意思来看，其实就是完成Master的恢复 / private def completeRecover 阅读全文

posted @ 2019-11-25 23:19 二黑诶阅读(294) 评论(0) 推荐(0) 编辑

小记--------SparkContext初始化原理机制图解

摘要：阅读全文

posted @ 2019-11-25 23:17 二黑诶阅读(153) 评论(0) 推荐(0) 编辑

2019年11月21日

小记--------spark的两种提交模式

摘要： spark的两种提交模式：yarn-cluster 、 yarn-client 图解阅读全文

posted @ 2019-11-21 23:48 二黑诶阅读(180) 评论(0) 推荐(0) 编辑

于二黑

公告