Hive技术相关 - 随笔分类 - 信方

Hive记录-Impala jdbc连接hive和kudu参考

摘要：1.配置环境Eclipse和JDK 2.加载hive jar包或者impala jar包备注：从CDH集群里面拷贝出来下载地址：https://www.cloudera.com/downloads/connectors/impala/jdbc/2-5-5.html 3.源代码参考阅读全文

posted @ 2018-07-23 14:26 信方编辑

hive记录-cdh配置hive和sentry

摘要：1.cdh添加组件-sentry-选择主机-配置数据库 2.配置数据库 1）mysql -uroot -p 2) create database sentry DEFAULT CHARSET utf8 COLLATE utf8_general_ci; 3) grant all privileges 阅读全文

posted @ 2018-07-18 14:46 信方编辑

Hive记录-加载文件进行查询操作

摘要：Hive可以运行保存在文件里面的一条或多条的语句，只要用-f参数，一般情况下，保存这些Hive查询语句的文件通常用.q或者.hql后缀名，但是这不是必须的，你也可以保存你想要的后缀名。假设test文件里面有一下的Hive查询语句：use siat;select * from test limit 1... 阅读全文

posted @ 2017-10-17 23:25 信方阅读(763) 评论(0) 推荐(0) 编辑

Hive记录-配置客户端可视化管理工具远程连接

摘要：配置客户端远程连接（方便可视化工具操作）-不需要在hive服务器上敲命令了1.安装DBeaver工具：https://dbeaver.com/download/2.准备相关驱动文件(服务器上hive/lib下拷贝)3.打开DBeaver，新建连接->Hadoop->Apache hive->Next... 阅读全文

posted @ 2017-10-17 23:25 信方阅读(1016) 评论(0) 推荐(0) 编辑

Hive记录-部署Hive环境

摘要：1.配置 hive1.2.0（前提要配置hadoop2.7.2，前面文档有介绍） 2.配置Mysql 3.mysql 新建 hive 数据库 4.编译hive war(web接口)#下载hive src源码解压切换到 hive/hwi/web 执行 jar cvf hive-hwi-1.2.0.wa 阅读全文

posted @ 2017-10-17 23:25 信方阅读(195) 评论(0) 推荐(0) 编辑

Hive记录-配置远程连接（JAVA/beeline）

摘要：1.修改配置hive-site.xml hadoop core-site.xml限制---参考Hive记录-部署Hive环境2.启动hadoop #sh /usr/app/hadoop/sbin/start-all.sh3.jps查看五大进程是否齐全：NameNode DataNode N... 阅读全文

posted @ 2017-10-17 23:25 信方阅读(1979) 评论(0) 推荐(0) 编辑

Hive记录-单机impala配置

摘要：1.先决条件配置了hadoop、hive等2.官网查看版本信息下载相应的安装包http://archive.cloudera.com/cdh5/redhat/5/x86_64/cdh/5.10/RPMS/x86_64/3.安装一些依赖包：mysql-connector-java、bigtop-jsc... 阅读全文

posted @ 2017-10-17 23:25 信方阅读(842) 评论(0) 推荐(0) 编辑

Hive记录-Hive调优

摘要：1.Join优化a.map joinb.reduce join小表为驱动表，或直接将小表加载到内存，做map端join,它的关键字为/*+MAP JOIN(t1)*/如果想自动开启map端Join,可以通过hive.mapjoin.smalltable.filesize（默认为25000000）来定... 阅读全文

posted @ 2017-10-17 23:25 信方阅读(244) 评论(0) 推荐(0) 编辑

Hive记录-Beeline常用操作命令

摘要：Beeline和其他工具有一些不同，执行查询都是正常的SQL输入，但是如果是一些管理的命令，比如进行连接，中断，退出，执行Beeline命令需要带上“！”，不需要终止符。常用命令介绍：1、!connect url –连接不同的Hive2服务器2、!exit –退出shell3、!help –显示全部... 阅读全文

posted @ 2017-10-17 23:25 信方阅读(40875) 评论(0) 推荐(0) 编辑

Hive记录-Hive常用命令操作

摘要：1.hive支持四种数据模型• external table ---外部表：Hive中的外部表和表很类似，但是其数据不是放在自己表所属的目录中，而是存放到别处，这样的好处是如果你要删除这个外部表，该外部表所指向的数据是不会被删除的，它只会删除外部表对应的元数据；而如果你要删除表，该表对应的所有数据包... 阅读全文

posted @ 2017-10-17 23:25 信方阅读(1922) 评论(0) 推荐(0) 编辑

Hive记录-hive权限控制

摘要：在使用Hive的元数据配置权限之前必须现在hive-site.xml中配置两个参数，配置参数如下： hive.security.authorization.enabled true hive.security.authorization.createtable.owner.grants ALL h... 阅读全文

posted @ 2017-10-17 23:25 信方阅读(2334) 评论(0) 推荐(0) 编辑

Hive记录-使用Hue管理Hive元数据

摘要：Hue是一个开源的Apache Hadoop UI系统，由Cloudera Desktop演化而来，最后Cloudera公司将其贡献给Apache基金会的Hadoop社区，它是基于Python Web框架Django实现的。通过使用Hue我们可以在浏览器端的Web控制台上与Hadoop集群进行交互来阅读全文

posted @ 2017-10-17 23:25 信方编辑

Hive记录-Hive介绍（转载）

摘要：1.Hive是什么？ Hive 是基于 Hadoop 的一个数据仓库工具，可以将结构化的数据文件映射为一张数据库表，并提供完整的 SQL 查询功能，将类 SQL 语句转换为 MapReduce 任务执行。2.Hive数据结构-HDFS-Table-Partiton-BucketTable：每个表... 阅读全文

posted @ 2017-10-17 23:25 信方阅读(860) 评论(0) 推荐(0) 编辑

Hive记录-Hive on Spark环境部署

摘要：1.hive执行引擎 Hive默认使用MapReduce作为执行引擎，即Hive on mr。实际上，Hive还可以使用Tez和Spark作为其执行引擎，分别为Hive on Tez和Hive on Spark。由于MapReduce中间计算均需要写入磁盘，而Spark是放在内存中，所以总体来讲Sp 阅读全文

posted @ 2017-10-17 23:25 信方阅读(20797) 评论(1) 推荐(0) 编辑

Hive记录-配置支持事务管理hive-site.xml

摘要：hive.support.concurrency true hive.exec.dynamic.partition.mode nonstrict hive.txn.manager org.apache.hadoop.hiv... 阅读全文

posted @ 2017-10-17 23:25 信方阅读(673) 评论(0) 推荐(0) 编辑

Hive记录-impala常用命令

摘要：1.impala是什么Impala是Cloudera公司主导开发的新型查询系统，它提供SQL语义，能查询存储在Hadoop的HDFS和HBase中的PB级大数据。已有的Hive系统虽然也提供了SQL语义，但由于Hive底层执行使用的是MapReduce引擎，仍然是一个批处理过程，难以满足查询的交互性... 阅读全文

posted @ 2017-10-17 23:25 信方阅读(1253) 评论(0) 推荐(0) 编辑

Hive记录-Sqoop常用命令

摘要：1.sqoop是什么Sqoop是一款开源的数据迁移工具，主要用于Hadoop(Hive)与传统的关系型数据库(mysql...)相互之间的数据迁移。2.sqoop的特点sqoop的底层实现是mapreduce，所以sqoop依赖于hadoop,数据是并行导入的。3.sqoop常用命令sqoop he... 阅读全文

posted @ 2017-10-17 23:25 信方阅读(1655) 评论(0) 推荐(0) 编辑

信方互联网硬汉

行走互联，硬汉信方

随笔分类 - Hive技术相关

公告

搜索

常用链接

积分与排名

随笔分类

随笔档案

阅读排行榜

评论排行榜

推荐排行榜

最新评论