随笔分类 -  Hive技术相关

摘要:1.配置环境Eclipse和JDK 2.加载hive jar包或者impala jar包 备注:从CDH集群里面拷贝出来 下载地址:https://www.cloudera.com/downloads/connectors/impala/jdbc/2-5-5.html 3.源代码参考 阅读全文
posted @ 2018-07-23 14:26 信方 编辑
摘要:1.cdh添加组件-sentry-选择主机-配置数据库 2.配置数据库 1)mysql -uroot -p 2) create database sentry DEFAULT CHARSET utf8 COLLATE utf8_general_ci; 3) grant all privileges 阅读全文
posted @ 2018-07-18 14:46 信方 编辑
摘要:Hive可以运行保存在文件里面的一条或多条的语句,只要用-f参数,一般情况下,保存这些Hive查询语句的文件通常用.q或者.hql后缀名,但是这不是必须的,你也可以保存你想要的后缀名。假设test文件里面有一下的Hive查询语句:use siat;select * from test limit 1... 阅读全文
posted @ 2017-10-17 23:25 信方 阅读(763) 评论(0) 推荐(0) 编辑
摘要:配置客户端远程连接(方便可视化工具操作)-不需要在hive服务器上敲命令了1.安装DBeaver工具:https://dbeaver.com/download/2.准备相关驱动文件(服务器上hive/lib下拷贝)3.打开DBeaver,新建连接->Hadoop->Apache hive->Next... 阅读全文
posted @ 2017-10-17 23:25 信方 阅读(1015) 评论(0) 推荐(0) 编辑
摘要:1.配置 hive1.2.0(前提要配置hadoop2.7.2,前面文档有介绍) 2.配置Mysql 3.mysql 新建 hive 数据库 4.编译hive war(web接口)#下载hive src源码解压切换到 hive/hwi/web 执行 jar cvf hive-hwi-1.2.0.wa 阅读全文
posted @ 2017-10-17 23:25 信方 阅读(195) 评论(0) 推荐(0) 编辑
摘要:1.修改配置hive-site.xml hadoop core-site.xml限制---参考Hive记录-部署Hive环境2.启动hadoop #sh /usr/app/hadoop/sbin/start-all.sh3.jps查看五大进程是否齐全:NameNode DataNode N... 阅读全文
posted @ 2017-10-17 23:25 信方 阅读(1977) 评论(0) 推荐(0) 编辑
摘要:1.先决条件配置了hadoop、hive等2.官网查看版本信息下载相应的安装包http://archive.cloudera.com/cdh5/redhat/5/x86_64/cdh/5.10/RPMS/x86_64/3.安装一些依赖包:mysql-connector-java、bigtop-jsc... 阅读全文
posted @ 2017-10-17 23:25 信方 阅读(835) 评论(0) 推荐(0) 编辑
摘要:1.Join优化a.map joinb.reduce join小表为驱动表,或直接将小表加载到内存,做map端join,它的关键字为/*+MAP JOIN(t1)*/如果想自动开启map端Join,可以通过hive.mapjoin.smalltable.filesize(默认为25000000)来定... 阅读全文
posted @ 2017-10-17 23:25 信方 阅读(243) 评论(0) 推荐(0) 编辑
摘要:Beeline和其他工具有一些不同,执行查询都是正常的SQL输入,但是如果是一些管理的命令,比如进行连接,中断,退出,执行Beeline命令需要带上“!”,不需要终止符。常用命令介绍:1、!connect url –连接不同的Hive2服务器2、!exit –退出shell3、!help –显示全部... 阅读全文
posted @ 2017-10-17 23:25 信方 阅读(40815) 评论(0) 推荐(0) 编辑
摘要:1.hive支持四种数据模型• external table ---外部表:Hive中的外部表和表很类似,但是其数据不是放在自己表所属的目录中,而是存放到别处,这样的好处是如果你要删除这个外部表,该外部表所指向的数据是不会被删除的,它只会删除外部表对应的元数据;而如果你要删除表,该表对应的所有数据包... 阅读全文
posted @ 2017-10-17 23:25 信方 阅读(1907) 评论(0) 推荐(0) 编辑
摘要:在使用Hive的元数据配置权限之前必须现在hive-site.xml中配置两个参数,配置参数如下: hive.security.authorization.enabled true hive.security.authorization.createtable.owner.grants ALL h... 阅读全文
posted @ 2017-10-17 23:25 信方 阅读(2330) 评论(0) 推荐(0) 编辑
摘要:Hue是一个开源的Apache Hadoop UI系统,由Cloudera Desktop演化而来,最后Cloudera公司将其贡献给Apache基金会的Hadoop社区,它是基于Python Web框架Django实现的。通过使用Hue我们可以在浏览器端的Web控制台上与Hadoop集群进行交互来 阅读全文
posted @ 2017-10-17 23:25 信方 编辑
摘要:1.Hive是什么? Hive 是基于 Hadoop 的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供完整的 SQL 查询功能,将类 SQL 语句转换为 MapReduce 任务执行。2.Hive数据结构-HDFS-Table-Partiton-BucketTable:每个表... 阅读全文
posted @ 2017-10-17 23:25 信方 阅读(859) 评论(0) 推荐(0) 编辑
摘要:1.hive执行引擎 Hive默认使用MapReduce作为执行引擎,即Hive on mr。实际上,Hive还可以使用Tez和Spark作为其执行引擎,分别为Hive on Tez和Hive on Spark。由于MapReduce中间计算均需要写入磁盘,而Spark是放在内存中,所以总体来讲Sp 阅读全文
posted @ 2017-10-17 23:25 信方 阅读(20792) 评论(1) 推荐(0) 编辑
摘要:hive.support.concurrency true hive.exec.dynamic.partition.mode nonstrict hive.txn.manager org.apache.hadoop.hiv... 阅读全文
posted @ 2017-10-17 23:25 信方 阅读(671) 评论(0) 推荐(0) 编辑
摘要:1.impala是什么Impala是Cloudera公司主导开发的新型查询系统,它提供SQL语义,能查询存储在Hadoop的HDFS和HBase中的PB级大数据。已有的Hive系统虽然也提供了SQL语义,但由于Hive底层执行使用的是MapReduce引擎,仍然是一个批处理过程,难以满足查询的交互性... 阅读全文
posted @ 2017-10-17 23:25 信方 阅读(1248) 评论(0) 推荐(0) 编辑
摘要:1.sqoop是什么Sqoop是一款开源的数据迁移工具,主要用于Hadoop(Hive)与传统的关系型数据库(mysql...)相互之间的数据迁移。2.sqoop的特点sqoop的底层实现是mapreduce,所以sqoop依赖于hadoop,数据是并行导入的。3.sqoop常用命令sqoop he... 阅读全文
posted @ 2017-10-17 23:25 信方 阅读(1655) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示