随笔档案「2019年12月」 - 二黑诶

小记--------hbase数据库预分区设计，rowkey设计及参数调优

摘要：表的设计 1.1预分区设计每一个region维护者startrowkey与endrowkey，如果假如的数据符合某个region维护的rowkey范围，则该数据交给这个region维护，所以我们可以将数据所有投放的分区提前大致的规划好，以提高hbase性能可以通过hbase shell 命令进行阅读全文

posted @ 2019-12-26 17:54 二黑诶阅读(416) 评论(0) 推荐(0)

小记--------hbase数据库java API 常用方法及案例

摘要：HBaseAdmin类：管理hbase数据库的表信息，‘创建表、删除表、列出表选项、使表有效/无效、添加或删除列簇’； Eg： //使用工厂模式创建connection val conn: Connection = ConnectionFactory.createConnection(config) 阅读全文

posted @ 2019-12-26 17:47 二黑诶阅读(372) 评论(0) 推荐(0)

小记--------hbase数据库读写流程

摘要：hbase读写流程读过程 client先从缓存中定位region位置，如果缓存中没有region位置，则从zookeeper的-ROOT-表，获取-ROOT-所在regionserver位置通过查询-ROOT-的region服务器获取含有.META.表所在regionserver地址 Clien 阅读全文

posted @ 2019-12-26 17:23 二黑诶阅读(184) 评论(0) 推荐(0)

小记--------hbase数据库各组件应用及作用

摘要：zookeeper：主要用于协调管理分布式应用程序； 1.实现master高可用；如果 active master由于异常宕机，zookeeper会检测到该宕机时间，并通过一定机制选举出新的master 2.管理系统核心元数据：当前系统中正常工作的regionserver集合，保存系统元数据表hba 阅读全文

posted @ 2019-12-26 17:22 二黑诶阅读(1016) 评论(0) 推荐(0)

小记--------hbase数据库介绍及存储方式

摘要：一、Hbase基本原理 1、hbase基本介绍 HBASE是一个分布式的，面向列的开源数据库。Hbase的存储是基于hadoop的。因为Hadoop实现了一个分布式文件系统（HDFS），基于hadoop意味着hbase与生俱来的超强的扩展性和吞吐量，hbase采用的是key、value的存储方式。意阅读全文

posted @ 2019-12-26 17:20 二黑诶阅读(2052) 评论(0) 推荐(0)

小记--------sparksql和DataFrame的小小案例java、scala版本

摘要：sparksql是spark中的一个模块，主要用于进行结构化数据的处理，他提供的最核心的编程抽象，就是DataFrame。同时，sparksql还可以作为分布式的sql查询引擎。最最重要的功能就是从hive中查询数据。 Dataframe可以理解为：以列的形式组织的，分布式的数据集合。 Dataf 阅读全文

posted @ 2019-12-17 14:31 二黑诶阅读(447) 评论(0) 推荐(0)

小记--------spark的worker原理分析及源码分析

摘要：Worker类源码位置： org.apache.spark.deploy.worker /** *启动driver的源码分析 */ case LaunchDriver(driverId, driverDesc) => logInfo(s"Asked to launch driver $driverI 阅读全文

posted @ 2019-12-17 14:29 二黑诶阅读(329) 评论(0) 推荐(0)

小记--------sqoop的简单从mysql导入到hbase操作

摘要：sqoop import -D sqoop.hbase.add.row.key=true //是否将rowkey相关字段列入列族中，默认为false ；该参数必须在import之后 --connect jdbc:mysql://120.27.208.185/bigdatatest //连接mysql 阅读全文

posted @ 2019-12-17 14:26 二黑诶阅读(346) 评论(0) 推荐(0)

小记--------maxwell启动失败解决

摘要：查看报错日志信息：com.github.shyiko.mysql.binlog.network.ServerException: Could not find first log file name in binary log index file at com.github.shyiko.mysq 阅读全文

posted @ 2019-12-11 14:13 二黑诶阅读(3076) 评论(1) 推荐(1)

小记--------spark资源调度机制源码分析-----Schedule

摘要：Master类位置所在：spark-core_2.11-2.1.0.jar的org.apache.spark.deploy.master下的Master类 /** * driver调度机制原理代码分析Schedule the currently available resources among w 阅读全文

posted @ 2019-12-01 22:10 二黑诶阅读(248) 评论(0) 推荐(0)

小记--------spark的Master的Application注册机制源码分析及Master的注册机制原理分析

摘要：原理图解： Master类位置所在：spark-core_2.11-2.1.0.jar的org.apache.spark.deploy.master下的Master类 //截取了部分代码 //处理Application注册的请求 case RegisterApplication(descriptio 阅读全文

posted @ 2019-12-01 22:08 二黑诶阅读(196) 评论(0) 推荐(0)

于二黑

12 2019 档案

公告