摘要: 前言 首先需要配置JAVA环境变量,搭建hadoop集群,实现HA,并启动集群环境 一 创建hdfs项目,导入pom文件 <dependencies> <dependency> <groupId>junit</groupId> <artifactId>junit</artifactId> <vers 阅读全文
posted @ 2021-08-19 16:28 明明就- 阅读(504) 评论(0) 推荐(0) 编辑
摘要: 前言: 想玩一下HDFS的API,结果导入pom文件时候,jdk.tools依赖加载不出来. 解决办法: 换一种方法,即将解决问题 <dependency> <groupId>com.sun</groupId> <artifactId>tools</artifactId> <version>1.8. 阅读全文
posted @ 2021-08-19 16:01 明明就- 阅读(283) 评论(0) 推荐(0) 编辑
摘要: 前提: 在本地IDEA写完项目代码后,将整个项目打包上传到集群进行测试. 需要注意输入输出路径要写对 将两个文件上传到HDFS集群 # 上传文件 hadoop fs -put /opt/module/hadoop_file/input/friends.txt /opt/module/hadoop_f 阅读全文
posted @ 2021-08-19 12:59 明明就- 阅读(261) 评论(0) 推荐(0) 编辑
摘要: 1.启动Phoenix bin/sqlline.sh 2.在Phoenix中查看表 !table 3.在Phoenix中创建表 create schema Phoenix_schema_name;create table Phoenix_schema_name.table_name(id varch 阅读全文
posted @ 2021-08-17 21:56 明明就- 阅读(376) 评论(0) 推荐(0) 编辑
摘要: 问题:25匹马,五个赛道,每个赛道最多允许一匹马进行比赛,问需要进行多少次比赛可以找出跑得最快的三匹马? 拓展说下问题,一共是五个赛道,每个赛道上占一匹马,一场比赛最多就是五匹马同时进行.然后跑出各自的时间,A1 A2 A3 A4 A5; 如果再进行下一轮比赛,就是B1 B2 B3 B4 B5... 阅读全文
posted @ 2021-08-17 17:48 明明就- 阅读(347) 评论(0) 推荐(0) 编辑
摘要: 前言: 压缩概述: 压缩技术能够有效减少底层存储系统(HDFS)读写字节数.压缩提高了网络带宽和磁盘空间的效率,在运行MR程序时,I/O操作,网络数据传输,Shuffle和Merge要花大量的时间,尤其是数据规模很大和工作负载密集的情况下,因此,使用数据压缩显得尤为重要. 鉴于磁盘I/O和网络带宽是 阅读全文
posted @ 2021-08-16 16:32 明明就- 阅读(124) 评论(0) 推荐(0) 编辑
摘要: 一 安装tez 1.下载tez.tar 2.安装 tar -zxvf tez-0.9.1.tar.gz -C /opt/module 3.修改名称 mv tez-0.9.1-bin tez-0.9.1 二 在Hive中配置tez 1.进入Hive的配置目录/opt/module/hive/conf 阅读全文
posted @ 2021-08-16 15:47 明明就- 阅读(228) 评论(0) 推荐(0) 编辑
摘要: 关于HIVE实现自定义函数,步骤主要可分为: 继承org.apache.hadoop.hive.ql.exec.UDF 重写evaluate()方法 打包jar 添加jar包 使用自定义函数 下面是具体实现,包括自定义临时函数和自定义永久函数。 编写自定义函数 public class AddPre 阅读全文
posted @ 2021-08-16 10:30 明明就- 阅读(502) 评论(0) 推荐(1) 编辑
摘要: Hive自定义函数包括三种UDF、UDAF、UDTF UDF(User-Defined-Function) 一进一出 UDAF(User- Defined Aggregation Funcation) 聚集函数,多进一出。Count/max/min UDTF(User-Defined Table-G 阅读全文
posted @ 2021-08-16 10:24 明明就- 阅读(91) 评论(0) 推荐(0) 编辑
摘要: Hive源数据默认存储在derby数据库中,不支持多客户端访问,所以需要将源数据存储在Mysql中,才支持多客户端访问。主要架构如下: HIVE解析成MR的过程: Hive通过给用户提供一系列交互接口,接受到用户的指令(sql语句),结合源数据(metastore),经过Driver内的解析器、编译 阅读全文
posted @ 2021-08-16 10:20 明明就- 阅读(324) 评论(0) 推荐(0) 编辑