摘要: ##一、梳理定位 经过之前的源码准备 为了减少理解上的差异,直接在官网找到架构图进行分析。 从上图可以直观的看出 Hive的组件主要有 UI: 用户交互界面,用于提交SQL文件任务,观察任务进度占用等 DRIVER: 见名知意,用于接收SQL语句,是客户提交任务的第一接收者,是Hive执行的发起者, 阅读全文
posted @ 2021-08-11 23:37 MachCraft 阅读(1032) 评论(0) 推荐(0)
摘要: #一、编译准备 ###1.下载源码包 https://github.com/apache/hive/archive/refs/tags/rel/release-2.3.7.zip 或使用git直接拉取 无法解决科学问题请点 ###2.环境 JDK 1.8.0_202 Apache Maven 3.6 阅读全文
posted @ 2021-07-15 17:03 MachCraft 阅读(322) 评论(0) 推荐(0)
摘要: 在日常大数据生产环境中,经常会有集群数据集和关系型数据库互相转换的需求,在需求选择的初期解决问题的方法————数据同步工具就应运而生了。此次我们选择两款生产环境常用的数据同步工具进行讨论 #Sqoop 通常数据开发岗位的朋友都会较早的接触这款工具,因为Sqoop的设计初衷就是在Hadoop和DB(关 阅读全文
posted @ 2021-02-06 15:55 MachCraft 阅读(3529) 评论(0) 推荐(0)
摘要: ###前言 Hive是由Facebook 开源用于解决海量结构化日志的数据统计,是基于Hadoop 的一个数据仓库工具,可以将结构化的数据文件映射为一张表,并提供类 SQL查询功能。 在资源有限的情况下,提高作业的查询效率从而达到快速产出数据的想法势在必行。掌握Hive的调优方法能够提升工作效率同时 阅读全文
posted @ 2020-10-28 12:40 MachCraft 阅读(117) 评论(0) 推荐(0)
摘要: ###框架版本 Hadoop 2.7.7 Hive 2.3.7 Tez 0.9.2 保证hadoop集群启动,hive元数据服务启动 ###上传tez到HDFS tar -zxvf apache-tez-0.9.2-bin.tar.gz mv apache-tez-0.9.2-bin tez-0.9 阅读全文
posted @ 2020-09-12 15:15 MachCraft 阅读(3821) 评论(0) 推荐(1)
摘要: 数仓分层 1.ODS层 原始数据层,存放原始数据,直接加载原始日志、数据,数据保持原貌不做处理,起到备份数据的作用。数据采用LZO压缩,并创建索引减少磁盘存储空间(切片)。创建分区表,防止后续全表扫描。可以通过创建外部表供多人使用,内部表(仅供自己使用) 2.DWD层 明细数据层,对ODS层数据进行 阅读全文
posted @ 2020-09-12 10:17 MachCraft 阅读(1579) 评论(0) 推荐(1)
摘要: #读流程 1.在客户端提交参数后,客户端(Client)通过调用FileSystem对象的open()方法来打开需要读取的文件 2.DistributedFileSystem调用元数据节点,得到Block信息,对于每一个数据块元数据返回保存数据块的数据节点地址 3.DistributedFileSy 阅读全文
posted @ 2020-09-12 09:53 MachCraft 阅读(130) 评论(0) 推荐(0)