12 2019 档案
摘要:表的设计 1.1预分区设计 每一个region维护者startrowkey与endrowkey,如果假如的数据符合某个region维护的rowkey范围,则该数据交给这个region维护,所以我们可以将数据所有投放的分区提前大致的规划好,以提高hbase性能 可以通过hbase shell 命令进行
阅读全文
摘要:HBaseAdmin类:管理hbase数据库的表信息,‘创建表、删除表、列出表选项、使表有效/无效、添加或删除列簇’; Eg: //使用工厂模式创建connection val conn: Connection = ConnectionFactory.createConnection(config)
阅读全文
摘要:hbase读写流程 读过程 client先从缓存中定位region位置,如果缓存中没有region位置,则从zookeeper的-ROOT-表,获取-ROOT-所在regionserver位置 通过查询-ROOT-的region服务器获取含有.META.表所在regionserver地址 Clien
阅读全文
摘要:zookeeper:主要用于协调管理分布式应用程序; 1.实现master高可用;如果 active master由于异常宕机,zookeeper会检测到该宕机时间,并通过一定机制选举出新的master 2.管理系统核心元数据:当前系统中正常工作的regionserver集合,保存系统元数据表hba
阅读全文
摘要:一、Hbase基本原理 1、hbase基本介绍 HBASE是一个分布式的,面向列的开源数据库。Hbase的存储是基于hadoop的。因为Hadoop实现了一个分布式文件系统(HDFS),基于hadoop意味着hbase与生俱来的超强的扩展性和吞吐量,hbase采用的是key、value的存储方式。意
阅读全文
摘要:sparksql是spark中的一个模块,主要用于进行结构化数据的处理,他提供的最核心的编程抽象,就是DataFrame。同时,sparksql还可以作为分布式的sql查询引擎。 最最重要的功能就是从hive中查询数据。 Dataframe可以理解为:以列的形式组织的,分布式的数据集合。 Dataf
阅读全文
摘要:Worker类源码位置: org.apache.spark.deploy.worker /** *启动driver的源码分析 */ case LaunchDriver(driverId, driverDesc) => logInfo(s"Asked to launch driver $driverI
阅读全文
摘要:sqoop import -D sqoop.hbase.add.row.key=true //是否将rowkey相关字段列入列族中,默认为false ;该参数必须在import之后 --connect jdbc:mysql://120.27.208.185/bigdatatest //连接mysql
阅读全文
摘要:查看报错日志信息:com.github.shyiko.mysql.binlog.network.ServerException: Could not find first log file name in binary log index file at com.github.shyiko.mysq
阅读全文
摘要:Master类位置所在:spark-core_2.11-2.1.0.jar的org.apache.spark.deploy.master下的Master类 /** * driver调度机制原理代码分析Schedule the currently available resources among w
阅读全文
摘要:原理图解: Master类位置所在:spark-core_2.11-2.1.0.jar的org.apache.spark.deploy.master下的Master类 //截取了部分代码 //处理Application注册的请求 case RegisterApplication(descriptio
阅读全文

浙公网安备 33010602011771号