06 2020 档案

摘要:数据加载到表 非分区表 方式1: 假设当前已经存在一张非分区表,那么可以直接通过拷贝的方式把数据拷贝到hdfs上面的对应目录 eg 1、创建测试表 hive (r_db2)> create table input_test(id int, name string); 2、创建测试数据 [hduser 阅读全文
posted @ 2020-06-30 17:22 北漂-boy 阅读(390) 评论(0) 推荐(0) 编辑
摘要:一、数据库操作 1、创建数据库 语法格式: CREATE (DATABASE|SCHEMA) [IF NOT EXISTS] database_name [COMMENT database_comment] [LOCATION hdfs_path] [MANAGEDLOCATION hdfs_pat 阅读全文
posted @ 2020-06-30 14:38 北漂-boy 阅读(416) 评论(0) 推荐(0) 编辑
摘要:hive 随笔 1、获取当前hive的所有变量信息,包括hiveconf、hivevar、system、env等的信息 hive -S -e "set" > hive.cmd hive -S -e "set -v" > hive.cmd #可以获取hadoop相关的属性 2、自定义变量 ① 在进入h 阅读全文
posted @ 2020-06-29 16:22 北漂-boy 阅读(400) 评论(0) 推荐(0) 编辑
摘要:方式一 INSERT OVERWRITE LOCAL DIRECTORY '/tmp/data.csv' select books from table; 或者存储到hdfs INSERT OVERWRITE DIRECTORY '/user/data.csv' select books from 阅读全文
posted @ 2020-06-29 11:38 北漂-boy 阅读(1053) 评论(0) 推荐(0) 编辑
摘要:hive中空值判断基本分两种 一、NULL 与 \N hive在底层数据中如何保存和标识NULL,是由 alter table name SET SERDEPROPERTIES('serialization.null.format' = '\N'); 参数控制的 比如: 1、设置 alter tab 阅读全文
posted @ 2020-06-29 11:32 北漂-boy 阅读(2718) 评论(0) 推荐(0) 编辑
摘要:1、定义一个字典变量 declare -A dict [hduser@yjt hive]$ dict['a']=1 [hduser@yjt hive]$ dict['b']=2 [hduser@yjt hive]$ dict['c']=3 2、判断某个值是否存在于字典的key集合里面 ① 使用循环 阅读全文
posted @ 2020-06-29 10:06 北漂-boy 阅读(2400) 评论(0) 推荐(0) 编辑
摘要:一、将ip地址转成long数值 将IP地址转化成整数的方法如下: 1、通过String的split方法按.分隔得到4个长度的数组 2、通过左移位操作(<<)给每一段的数字加权,第一段的权为2的24次方,第二段的权为2的16次方,第三段的权为2的8次方,最后一段的权为1 二、将数值转换为ip地址 将十 阅读全文
posted @ 2020-06-29 09:46 北漂-boy 阅读(6689) 评论(2) 推荐(1) 编辑
摘要:一、概述 ETCD是一个开源的、分布式的键值对数据存储系统,由Go语言实现,用于存储key-value键值对,同时不仅仅是存储,主要用途是提供共享配置及服务发现,使用Raft一致性算法来管理高度可用的复制日志。有下面特点 简单:定义明确,面向用户的API(gRPC) 安全:具有可选客户端证书身份验证 阅读全文
posted @ 2020-06-23 18:07 北漂-boy 阅读(3674) 评论(0) 推荐(0) 编辑
摘要:1、情况说明,测试集群,6台hdfs,一台hbase 在使用hbase的时候,出现hbase总是挂掉问题 2、错误现象: 2020-06-05 15:28:27,670 WARN [RS_OPEN_META-bb-cc-aa:16020-0-MetaLogRoller] wal.ProtobufLo 阅读全文
posted @ 2020-06-12 12:44 北漂-boy 阅读(2210) 评论(0) 推荐(0) 编辑
摘要:一、配置hbase 1、修改hbase-site.xml 添加如下配置: <property> <name>hbase.thrift.support.proxyuser</name> <value>true</value> </property> <property> <name>hbase.reg 阅读全文
posted @ 2020-06-11 12:25 北漂-boy 阅读(893) 评论(0) 推荐(0) 编辑
摘要:一、修改hue配置 1、配置修改如下 [librdbms] [[databases]] [[[mysql]]] # 记得打开注释,否则web界面可能报invalid literal for int() with base 10: 'Possible misconfiguration' nice_na 阅读全文
posted @ 2020-06-11 11:37 北漂-boy 阅读(273) 评论(0) 推荐(0) 编辑
摘要:一、hive 1、修改hive配置 在hive-site.xml文件添加如下信息: <property> <name>hive.server2.thrift.port</name> <value>10000</value> </property> <property> <name>hive.serv 阅读全文
posted @ 2020-06-11 11:09 北漂-boy 阅读(1413) 评论(0) 推荐(0) 编辑
摘要:一、配置hadoop配置文件 这里修改分为两种模式,一种是hdfs HA模式,一种是hdfs Non HA模式 1.1 非HA模式配置 使用webhdfs方式 1)修改hdfs-site.xml文件,添加如下配置: <property> <name>dfs.webhdfs.enabled</name 阅读全文
posted @ 2020-06-11 09:55 北漂-boy 阅读(1195) 评论(0) 推荐(0) 编辑
摘要:一、hue介绍 HUE是一个开源的Apache Hadoop UI系统,早期由Cloudera开发,后来贡献给开源社区。它是基于Python Web框架Django实现的。通过使用Hue我们可以通过浏览器方式操纵Hadoop集群。例如put、get、执行MapReduce Job等等 官方网站:ht 阅读全文
posted @ 2020-06-10 14:52 北漂-boy 阅读(7868) 评论(0) 推荐(0) 编辑
摘要:一、Ganglia基本概述 Ganglia是UC Berkeley发起的一个开源集群监视项目,设计用于测量数以千计的节点。Ganglia的核心包含gmond、gmetad以及一个Web前端。主要是用来监控系统性能,如:cpu 、mem、硬盘利用率, I/O负载、网络流量情况等,通过曲线很容易见到每个 阅读全文
posted @ 2020-06-10 11:11 北漂-boy 阅读(350) 评论(0) 推荐(0) 编辑
摘要:namenode异常信息: 2020-06-03 04:44:42,313 FATAL org.apache.hadoop.hdfs.server.namenode.FSEditLog: Error: flush failed for required journal (JournalAndStre 阅读全文
posted @ 2020-06-03 10:04 北漂-boy 阅读(1616) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示