06 2020 档案
摘要:数据加载到表 非分区表 方式1: 假设当前已经存在一张非分区表,那么可以直接通过拷贝的方式把数据拷贝到hdfs上面的对应目录 eg 1、创建测试表 hive (r_db2)> create table input_test(id int, name string); 2、创建测试数据 [hduser
阅读全文
摘要:一、数据库操作 1、创建数据库 语法格式: CREATE (DATABASE|SCHEMA) [IF NOT EXISTS] database_name [COMMENT database_comment] [LOCATION hdfs_path] [MANAGEDLOCATION hdfs_pat
阅读全文
摘要:hive 随笔 1、获取当前hive的所有变量信息,包括hiveconf、hivevar、system、env等的信息 hive -S -e "set" > hive.cmd hive -S -e "set -v" > hive.cmd #可以获取hadoop相关的属性 2、自定义变量 ① 在进入h
阅读全文
摘要:方式一 INSERT OVERWRITE LOCAL DIRECTORY '/tmp/data.csv' select books from table; 或者存储到hdfs INSERT OVERWRITE DIRECTORY '/user/data.csv' select books from
阅读全文
摘要:hive中空值判断基本分两种 一、NULL 与 \N hive在底层数据中如何保存和标识NULL,是由 alter table name SET SERDEPROPERTIES('serialization.null.format' = '\N'); 参数控制的 比如: 1、设置 alter tab
阅读全文
摘要:1、定义一个字典变量 declare -A dict [hduser@yjt hive]$ dict['a']=1 [hduser@yjt hive]$ dict['b']=2 [hduser@yjt hive]$ dict['c']=3 2、判断某个值是否存在于字典的key集合里面 ① 使用循环
阅读全文
摘要:一、将ip地址转成long数值 将IP地址转化成整数的方法如下: 1、通过String的split方法按.分隔得到4个长度的数组 2、通过左移位操作(<<)给每一段的数字加权,第一段的权为2的24次方,第二段的权为2的16次方,第三段的权为2的8次方,最后一段的权为1 二、将数值转换为ip地址 将十
阅读全文
摘要:一、概述 ETCD是一个开源的、分布式的键值对数据存储系统,由Go语言实现,用于存储key-value键值对,同时不仅仅是存储,主要用途是提供共享配置及服务发现,使用Raft一致性算法来管理高度可用的复制日志。有下面特点 简单:定义明确,面向用户的API(gRPC) 安全:具有可选客户端证书身份验证
阅读全文
摘要:1、情况说明,测试集群,6台hdfs,一台hbase 在使用hbase的时候,出现hbase总是挂掉问题 2、错误现象: 2020-06-05 15:28:27,670 WARN [RS_OPEN_META-bb-cc-aa:16020-0-MetaLogRoller] wal.ProtobufLo
阅读全文
摘要:一、配置hbase 1、修改hbase-site.xml 添加如下配置: <property> <name>hbase.thrift.support.proxyuser</name> <value>true</value> </property> <property> <name>hbase.reg
阅读全文
摘要:一、修改hue配置 1、配置修改如下 [librdbms] [[databases]] [[[mysql]]] # 记得打开注释,否则web界面可能报invalid literal for int() with base 10: 'Possible misconfiguration' nice_na
阅读全文
摘要:一、hive 1、修改hive配置 在hive-site.xml文件添加如下信息: <property> <name>hive.server2.thrift.port</name> <value>10000</value> </property> <property> <name>hive.serv
阅读全文
摘要:一、配置hadoop配置文件 这里修改分为两种模式,一种是hdfs HA模式,一种是hdfs Non HA模式 1.1 非HA模式配置 使用webhdfs方式 1)修改hdfs-site.xml文件,添加如下配置: <property> <name>dfs.webhdfs.enabled</name
阅读全文
摘要:一、hue介绍 HUE是一个开源的Apache Hadoop UI系统,早期由Cloudera开发,后来贡献给开源社区。它是基于Python Web框架Django实现的。通过使用Hue我们可以通过浏览器方式操纵Hadoop集群。例如put、get、执行MapReduce Job等等 官方网站:ht
阅读全文
摘要:一、Ganglia基本概述 Ganglia是UC Berkeley发起的一个开源集群监视项目,设计用于测量数以千计的节点。Ganglia的核心包含gmond、gmetad以及一个Web前端。主要是用来监控系统性能,如:cpu 、mem、硬盘利用率, I/O负载、网络流量情况等,通过曲线很容易见到每个
阅读全文
摘要:namenode异常信息: 2020-06-03 04:44:42,313 FATAL org.apache.hadoop.hdfs.server.namenode.FSEditLog: Error: flush failed for required journal (JournalAndStre
阅读全文