MachCraft

2021年8月11日

摘要： ##一、梳理定位经过之前的源码准备为了减少理解上的差异，直接在官网找到架构图进行分析。从上图可以直观的看出 Hive的组件主要有 UI：用户交互界面，用于提交SQL文件任务，观察任务进度占用等 DRIVER: 见名知意，用于接收SQL语句，是客户提交任务的第一接收者，是Hive执行的发起者，阅读全文

posted @ 2021-08-11 23:37 MachCraft 阅读(1100) 评论(0) 推荐(0)

2021年7月15日

Hive源码上手及问题解决

摘要： #一、编译准备 ###1.下载源码包 https://github.com/apache/hive/archive/refs/tags/rel/release-2.3.7.zip 或使用git直接拉取无法解决科学问题请点 ###2.环境 JDK 1.8.0_202 Apache Maven 3.6 阅读全文

posted @ 2021-07-15 17:03 MachCraft 阅读(363) 评论(0) 推荐(0)

2021年2月6日

数据同步工具Sqoop和DataX

摘要：在日常大数据生产环境中，经常会有集群数据集和关系型数据库互相转换的需求，在需求选择的初期解决问题的方法————数据同步工具就应运而生了。此次我们选择两款生产环境常用的数据同步工具进行讨论 #Sqoop 通常数据开发岗位的朋友都会较早的接触这款工具，因为Sqoop的设计初衷就是在Hadoop和DB(关阅读全文

posted @ 2021-02-06 15:55 MachCraft 阅读(3645) 评论(0) 推荐(0)

2020年10月28日

Hive调优相关

摘要： ###前言 Hive是由Facebook 开源用于解决海量结构化日志的数据统计，是基于Hadoop 的一个数据仓库工具，可以将结构化的数据文件映射为一张表，并提供类 SQL查询功能。在资源有限的情况下，提高作业的查询效率从而达到快速产出数据的想法势在必行。掌握Hive的调优方法能够提升工作效率同时阅读全文

posted @ 2020-10-28 12:40 MachCraft 阅读(136) 评论(0) 推荐(0)

2020年9月12日

Hive配置Tez引擎踩坑

摘要： ###框架版本 Hadoop 2.7.7 Hive 2.3.7 Tez 0.9.2 保证hadoop集群启动，hive元数据服务启动 ###上传tez到HDFS tar -zxvf apache-tez-0.9.2-bin.tar.gz mv apache-tez-0.9.2-bin tez-0.9 阅读全文

posted @ 2020-09-12 15:15 MachCraft 阅读(3975) 评论(0) 推荐(1)

数仓分层和维度建模及表的简述

摘要：数仓分层 1.ODS层原始数据层，存放原始数据，直接加载原始日志、数据，数据保持原貌不做处理，起到备份数据的作用。数据采用LZO压缩，并创建索引减少磁盘存储空间（切片）。创建分区表，防止后续全表扫描。可以通过创建外部表供多人使用，内部表（仅供自己使用） 2.DWD层明细数据层，对ODS层数据进行阅读全文

posted @ 2020-09-12 10:17 MachCraft 阅读(1628) 评论(0) 推荐(1)

HDFS读写流程

摘要： #读流程 1.在客户端提交参数后，客户端(Client)通过调用FileSystem对象的open()方法来打开需要读取的文件 2.DistributedFileSystem调用元数据节点，得到Block信息，对于每一个数据块元数据返回保存数据块的数据节点地址 3.DistributedFileSy 阅读全文

posted @ 2020-09-12 09:53 MachCraft 阅读(147) 评论(0) 推荐(0)

公告