摘要:
split hbase是通过regionServer管理table的,一个table对应一个或多个region,hmaster将这些region根据集群负载分配给regionServer进行管理。若一个table没有进行预分区,那么只有一个region,初始化表时数据的读写都命中同一个regionS 阅读全文
摘要:
春节期间一直没有用过笔记本上的集群,今天启动hbase后在shell操作报错,没有master。日志报错:NoClassDefFoundError: org/apache/htrace/SamplerBuilder 我确信集群配置、版本这些都没问题,于是删了zk上的hbase节点数据后重启zk,也没 阅读全文
摘要:
一级分区 1、hive分区是根据某列的值进行划分,每个分区对应HDFS上的一个目录,以下就是分区表test.table_t在HDFS的存储路径,可以看到有202002和202003两个分区,且分区字段为month。 2、创建分区表 1 create table table_name( 2 no in 阅读全文
摘要:
交互shell连接 ${HIVE_HOME}/bin/hive 比较丑陋,数据显示也比较乱。 beeline连接 1、要在hive-site.xml中添加hiveserver2的配置,端口默认为10000,且要保证hive在mysql中的元数据库已经创建成功。 2、启动hiveserver2:hiv 阅读全文
摘要:
1、在线下载mysql包 yum -y install mysql mysql-server mysql-devel 2、启动mysql /etc/init.d/mysqld start 3、通过mysql自带脚本,跟着提示按照自己需要进行设置 /usr/bin/mysql_secure_insta 阅读全文
摘要:
开发触发器的注意点 触发器不接收参数 触发器越多,DML操作性能越低 触发器最大为32k,若pl/sql语句太多,可以编写存储过程,在触发器中调用 在触发器的执行部分只能用DML语句(insert、select、update、delete),不能使用DDL语句(create、alter、drop) 阅读全文
摘要:
规范 1 create or replace procedure_name 2 ( 3 --参数:argument,根据参数类型命名,如number就是an_...,date就是ad_... 4 ad_data_date in date, 5 --使用表名.列名定义参数类型 6 P_id table 阅读全文
摘要:
概述 TaskScheduler定义了对任务进行调度的接口规范,目前spark只有taskSchedulerImpl一个实现类,用于接收DAGScheduler发送的taskSets,并按照资源调度算法将资源分配给task并提交task到executor上执行。 TaskSchedulerImpl通 阅读全文
摘要:
前言 Spark会将用户提交的作业看作一个job,在提交的时候首先将job转换为一系列的RDD,并按照RDD之间的依赖关系构建DAG(有向无环图),DAGScheduler会按照RDD依赖的不同将DAG划分为不同的stage,每个stage内部按照RDD分区数创建多个task,最后将task封装成t 阅读全文
摘要:
参考《Spark内核设计的艺术:架构设计与实现——耿嘉安》 NettyRpcEnv概述 Spark的NettyRpc环境的一些重要组件: private[netty] val transportConf = SparkTransportConf.fromSparkConf(...) private 阅读全文