摘要:
一、Hbase基本原理 1、hbase基本介绍 HBASE是一个分布式的,面向列的开源数据库。Hbase的存储是基于hadoop的。因为Hadoop实现了一个分布式文件系统(HDFS),基于hadoop意味着hbase与生俱来的超强的扩展性和吞吐量,hbase采用的是key、value的存储方式。意 阅读全文
摘要:
sparksql是spark中的一个模块,主要用于进行结构化数据的处理,他提供的最核心的编程抽象,就是DataFrame。同时,sparksql还可以作为分布式的sql查询引擎。 最最重要的功能就是从hive中查询数据。 Dataframe可以理解为:以列的形式组织的,分布式的数据集合。 Dataf 阅读全文
摘要:
Worker类源码位置: org.apache.spark.deploy.worker /** *启动driver的源码分析 */ case LaunchDriver(driverId, driverDesc) => logInfo(s"Asked to launch driver $driverI 阅读全文
摘要:
sqoop import -D sqoop.hbase.add.row.key=true //是否将rowkey相关字段列入列族中,默认为false ;该参数必须在import之后 --connect jdbc:mysql://120.27.208.185/bigdatatest //连接mysql 阅读全文
摘要:
查看报错日志信息:com.github.shyiko.mysql.binlog.network.ServerException: Could not find first log file name in binary log index file at com.github.shyiko.mysq 阅读全文
摘要:
Master类位置所在:spark-core_2.11-2.1.0.jar的org.apache.spark.deploy.master下的Master类 /** * driver调度机制原理代码分析Schedule the currently available resources among w 阅读全文
摘要:
原理图解: Master类位置所在:spark-core_2.11-2.1.0.jar的org.apache.spark.deploy.master下的Master类 //截取了部分代码 //处理Application注册的请求 case RegisterApplication(descriptio 阅读全文
摘要:
Master类位置所在:spark-core_2.11-2.1.0.jar的org.apache.spark.deploy.master下的Master类 /** *完成Master的主备切换,从字面意思来看,其实就是完成Master的恢复 / private def completeRecover 阅读全文
摘要:
阅读全文
摘要:
spark的两种提交模式:yarn-cluster 、 yarn-client 图解 阅读全文