上一页 1 ··· 4 5 6 7 8 9 10 11 12 下一页
摘要: 一、Hbase基本原理 1、hbase基本介绍 HBASE是一个分布式的,面向列的开源数据库。Hbase的存储是基于hadoop的。因为Hadoop实现了一个分布式文件系统(HDFS),基于hadoop意味着hbase与生俱来的超强的扩展性和吞吐量,hbase采用的是key、value的存储方式。意 阅读全文
posted @ 2019-12-26 17:20 二黑诶 阅读(1976) 评论(0) 推荐(0) 编辑
摘要: sparksql是spark中的一个模块,主要用于进行结构化数据的处理,他提供的最核心的编程抽象,就是DataFrame。同时,sparksql还可以作为分布式的sql查询引擎。 最最重要的功能就是从hive中查询数据。 Dataframe可以理解为:以列的形式组织的,分布式的数据集合。 Dataf 阅读全文
posted @ 2019-12-17 14:31 二黑诶 阅读(425) 评论(0) 推荐(0) 编辑
摘要: Worker类源码位置: org.apache.spark.deploy.worker /** *启动driver的源码分析 */ case LaunchDriver(driverId, driverDesc) => logInfo(s"Asked to launch driver $driverI 阅读全文
posted @ 2019-12-17 14:29 二黑诶 阅读(319) 评论(0) 推荐(0) 编辑
摘要: sqoop import -D sqoop.hbase.add.row.key=true //是否将rowkey相关字段列入列族中,默认为false ;该参数必须在import之后 --connect jdbc:mysql://120.27.208.185/bigdatatest //连接mysql 阅读全文
posted @ 2019-12-17 14:26 二黑诶 阅读(335) 评论(0) 推荐(0) 编辑
摘要: 查看报错日志信息:com.github.shyiko.mysql.binlog.network.ServerException: Could not find first log file name in binary log index file at com.github.shyiko.mysq 阅读全文
posted @ 2019-12-11 14:13 二黑诶 阅读(2894) 评论(1) 推荐(1) 编辑
摘要: Master类位置所在:spark-core_2.11-2.1.0.jar的org.apache.spark.deploy.master下的Master类 /** * driver调度机制原理代码分析Schedule the currently available resources among w 阅读全文
posted @ 2019-12-01 22:10 二黑诶 阅读(239) 评论(0) 推荐(0) 编辑
摘要: 原理图解: Master类位置所在:spark-core_2.11-2.1.0.jar的org.apache.spark.deploy.master下的Master类 //截取了部分代码 //处理Application注册的请求 case RegisterApplication(descriptio 阅读全文
posted @ 2019-12-01 22:08 二黑诶 阅读(180) 评论(0) 推荐(0) 编辑
摘要: Master类位置所在:spark-core_2.11-2.1.0.jar的org.apache.spark.deploy.master下的Master类 /** *完成Master的主备切换,从字面意思来看,其实就是完成Master的恢复 / private def completeRecover 阅读全文
posted @ 2019-11-25 23:19 二黑诶 阅读(294) 评论(0) 推荐(0) 编辑
摘要: 阅读全文
posted @ 2019-11-25 23:17 二黑诶 阅读(153) 评论(0) 推荐(0) 编辑
摘要: spark的两种提交模式:yarn-cluster 、 yarn-client 图解 阅读全文
posted @ 2019-11-21 23:48 二黑诶 阅读(180) 评论(0) 推荐(0) 编辑
上一页 1 ··· 4 5 6 7 8 9 10 11 12 下一页