会员
周边
众包
新闻
博问
闪存
赞助商
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
MachCraft
博客园
首页
新随笔
联系
订阅
管理
2021年8月11日
Hive执行流程与源码浅析
摘要: ##一、梳理定位 经过之前的源码准备 为了减少理解上的差异,直接在官网找到架构图进行分析。 从上图可以直观的看出 Hive的组件主要有 UI: 用户交互界面,用于提交SQL文件任务,观察任务进度占用等 DRIVER: 见名知意,用于接收SQL语句,是客户提交任务的第一接收者,是Hive执行的发起者,
阅读全文
posted @ 2021-08-11 23:37 MachCraft
阅读(1032)
评论(0)
推荐(0)
2021年7月15日
Hive源码上手及问题解决
摘要: #一、编译准备 ###1.下载源码包 https://github.com/apache/hive/archive/refs/tags/rel/release-2.3.7.zip 或使用git直接拉取 无法解决科学问题请点 ###2.环境 JDK 1.8.0_202 Apache Maven 3.6
阅读全文
posted @ 2021-07-15 17:03 MachCraft
阅读(322)
评论(0)
推荐(0)
2021年2月6日
数据同步工具Sqoop和DataX
摘要: 在日常大数据生产环境中,经常会有集群数据集和关系型数据库互相转换的需求,在需求选择的初期解决问题的方法————数据同步工具就应运而生了。此次我们选择两款生产环境常用的数据同步工具进行讨论 #Sqoop 通常数据开发岗位的朋友都会较早的接触这款工具,因为Sqoop的设计初衷就是在Hadoop和DB(关
阅读全文
posted @ 2021-02-06 15:55 MachCraft
阅读(3529)
评论(0)
推荐(0)
2020年10月28日
Hive调优相关
摘要: ###前言 Hive是由Facebook 开源用于解决海量结构化日志的数据统计,是基于Hadoop 的一个数据仓库工具,可以将结构化的数据文件映射为一张表,并提供类 SQL查询功能。 在资源有限的情况下,提高作业的查询效率从而达到快速产出数据的想法势在必行。掌握Hive的调优方法能够提升工作效率同时
阅读全文
posted @ 2020-10-28 12:40 MachCraft
阅读(117)
评论(0)
推荐(0)
2020年9月12日
Hive配置Tez引擎踩坑
摘要: ###框架版本 Hadoop 2.7.7 Hive 2.3.7 Tez 0.9.2 保证hadoop集群启动,hive元数据服务启动 ###上传tez到HDFS tar -zxvf apache-tez-0.9.2-bin.tar.gz mv apache-tez-0.9.2-bin tez-0.9
阅读全文
posted @ 2020-09-12 15:15 MachCraft
阅读(3821)
评论(0)
推荐(1)
数仓分层和维度建模及表的简述
摘要: 数仓分层 1.ODS层 原始数据层,存放原始数据,直接加载原始日志、数据,数据保持原貌不做处理,起到备份数据的作用。数据采用LZO压缩,并创建索引减少磁盘存储空间(切片)。创建分区表,防止后续全表扫描。可以通过创建外部表供多人使用,内部表(仅供自己使用) 2.DWD层 明细数据层,对ODS层数据进行
阅读全文
posted @ 2020-09-12 10:17 MachCraft
阅读(1579)
评论(0)
推荐(1)
HDFS读写流程
摘要: #读流程 1.在客户端提交参数后,客户端(Client)通过调用FileSystem对象的open()方法来打开需要读取的文件 2.DistributedFileSystem调用元数据节点,得到Block信息,对于每一个数据块元数据返回保存数据块的数据节点地址 3.DistributedFileSy
阅读全文
posted @ 2020-09-12 09:53 MachCraft
阅读(130)
评论(0)
推荐(0)
公告