随笔 - 17
文章 - 0
评论 - 0
阅读 -
1246
02 2022 档案
hive远程元数据服务模式安装
摘要:hive远程元数据服务模式安装: 1、选择两台虚拟机,node03作为服务端,node04作为客户端 2、分别在Node03和node04上解压hive的安装包,或者在从node02上远程拷贝hive的安装包到Node03和node04 3、node03修改hive-site.xml配置: <pro
阅读全文
linux切换yum源
摘要:linux切换yum源 1、需要提前安装wget命令 yum install wget -y 2、切换到yum的安装目录 /etc/yum.repos.d/ 3、将所有的已经存在的文件添加备份 1、给文件该名称添加.bak 2、创建backup目录,将所有的文件移动进去 4、打开镜像网站 ht
阅读全文
Hive远程数据库模式安装
摘要:Hive远程数据库模式安装 安装hive的步骤: 1、解压安装 2、修改环境变量 vi /etc/profile export HIVE_HOME=/opt/bigdata/hive-2.3.4 将bin目录添加到PATH路径中 3、修改配置文件,进入到/opt/bigdata/hive-2.3.4
阅读全文
大数据hive相关知识学习记录-high Avaliable-丁力士-14
摘要:hive—high Avaliable hive的搭建方式有三种,分别是 1、Local/Embedded Metastore Database (Derby) 2、Remote Metastore Database 3、Remote Metastore Server 一般情况下
阅读全文
大数据hive相关知识学习记录-Hive文件存储与压缩-丁力士-13
摘要:压缩和存储 1、 Hadoop压缩配置 1) MR支持的压缩编码 压缩格式工具算法文件扩展名是否可切分 DEFAULT 无 DEFAULT .deflate 否 Gzip gzip DEFAULT .gz 否 bzip2 bzip2 bzip2 .bz2 是 LZO lzop LZO .lzo 否
阅读全文
大数据hive相关知识学习记录-Hive优化-丁力士-12
摘要:Hive优化 Hive的存储层依托于HDFS,Hive的计算层依托于MapReduce,一般Hive的执行效率主要取决于SQL语句的执行效率,因此,Hive的优化的核心思想是MapReduce的优化。 1、查看Hive执行计划(小白慎用) Hive的SQL语句在执行之前需要将SQL语句转换成
阅读全文
大数据hive相关知识学习记录-Hive权限管理-丁力士-11
摘要:Hive权限管理 1、hive授权模型介绍 (1)Storage Based Authorization in the Metastore Server 基于存储的授权 - 可以对Metastore中的元数据进行保护,但是没有提供更加细粒度的访问控制(例如:列级别、行级别)。 (2)SQL Stan
阅读全文
大数据hive相关知识学习记录-Hive的视图和索引-丁力士-10
摘要:Hive的视图和索引 1、Hive Lateral View 1、基本介绍 Lateral View用于和UDTF函数(explode、split)结合来使用。 首先通过UDTF函数拆分成多行,再将多行结果组合成一个支持别名的虚拟表。主要解决在select使用UDTF做查询过程中,查询只能包含
阅读全文
大数据hive相关知识学习记录-Hive动态分区和分桶-丁力士-9
摘要:Hive动态分区和分桶 1、Hive动态分区 1、hive的动态分区介绍 hive的静态分区需要用户在插入数据的时候必须手动指定hive的分区字段值,但是这样的话会导致用户的操作复杂度提高,而且在使用的时候会导致数据只能插入到某一个指定分区,无法让数据散列分布,因此更好的方式是当数据在进行插入的
阅读全文
大数据hive相关知识学习记录-Hive参数操作和运行方式-丁力士-8
摘要:Hive参数操作和运行方式 1、Hive参数操作 1、hive参数介绍 hive当中的参数、变量都是以命名空间开头的,详情如下表所示: 命名空间读写权限含义 hiveconf 可读写 hive-site.xml当中的各配置变量例:hive --hiveconf hive.cli.print.he
阅读全文
大数据hive相关知识学习记录-Hive函数-丁力士-7
摘要:Hive函数 Hive中提供了非常丰富的运算符和内置函数支撑,具体操作如下: 1.内置运算符 1.1关系运算符 运算符类型说明 A = B 所有原始类型 如果A与B相等,返回TRUE,否则返回FALSE A == B 无 失败,因为无效的语法。 SQL使用”=”,不使用”==”。 A <> B
阅读全文
大数据hive相关知识学习记录-Hive Serde-丁力士-5
摘要:Hive Serde 目的: Hive Serde用来做序列化和反序列化,构建在数据存储和执行引擎之间,对两者实现解耦。 应用场景: 1、hive主要用来存储结构化数据,如果结构化数据存储的格式嵌套比较复杂的时候,可以使用serde的方式,利用正则表达式匹配的方法来读取数据,例如,表字段如下
阅读全文
大数据hive相关知识学习记录-HiveServer2-丁力士-6
摘要:HiveServer2 基本概念介绍 1、HiveServer2基本介绍 HiveServer2 (HS2) is a server interface that enables remote clients to execute queries against Hive and retrieve
阅读全文
大数据hive相关知识学习记录-Hive基本SQL操作-丁力士-4
摘要:Hive基本SQL操作 Hive DDL(数据库定义语言) 1、数据库的基本操作 --展示所有数据库 show databases; --切换数据库 use database_name; /*创建数据库 CREATE (DATABASE|SCHEMA) [IF NOT EXISTS] databas
阅读全文
大数据hive相关知识学习记录-Hive的安装搭建-丁力士-3
摘要:03 Hive的安装搭建 Hive可以从源码中编译安装,也可以直接使用官网下载的安装包,在此处我们选择安装包解压安装的方式。 Hive中最最重要的角色就是metastore 因此按照metastore的管理共有四种hive的安装搭建方式:官网参考地址如下: https://cwiki.apache.
阅读全文
大数据hive相关知识学习记录-Hive的架构-丁力士-2
摘要:02 Hive的架构 1、Hive的架构图 2、Hive的服务(角色) 1、用户访问接口 CLI(Command Line Interface):用户可以使用Hive自带的命令行接口执行Hive QL、设置参数等功能 JDBC/ODBC:用户可以使用JDBC或者ODBC的方式在代码中操作Hi
阅读全文
大数据hive相关知识学习记录-Hive的基本介绍-丁力士-1
摘要:01 Hive的基本介绍 1、hive产生的原因 · a) 方便对文件及数据的元数据进行管理,提供统一的元数据管理方式 b) 提供更加简单的方式来访问大规模的数据集,使用SQL语言进行数据分析 2、hive是什么? The Apache Hive ™ data warehouse softwar
阅读全文