09 2022 档案
摘要:
Hive与Spark之间整合有3种模式,本篇从Hive on Spark和Spark on Hive的使用出发,hive支持mr、tez和spark三种底层计算引擎,通过部署Hive on Spark环境实现Hive用到Spark的体验,Spark on Hive的使用则比较简单直接通过SQL操作Hive,最后罗列常见的一些大数据性能调优方法。
阅读全文

摘要:
本篇先了解Spark和Hadoop的关系与区别,进一步了解特性和相关组件架构;通过实战部署了Spark最新版本3.3.0的Local、Standalone+历史服务+HA、Yarn的部署完成操作步骤,并通过不同提交方式的示例和WebUI查看加深多Spark多种作业提交原理的理解,并拉开了使用Spark-Shell方式提交本地、集群、yarn交互式使用之门。
阅读全文

摘要:
Hive是一个建立在Hadoop HDFS架构至上的数仓工具,管理元数据但本身不存储数据,本篇了解hive优缺点,进一步理解其组成部分和数据组织形式和Driver,最后通过部署最新版本3.1.3版本完成内嵌模式、本地metastore、远程hiveserver2和metastore打开进入hive使用的大门
阅读全文

摘要:
Ceph实现了分布式统一的存储,既支持对象存储、块设备存储还支持文件系统,不失为目前最成熟稳定的存储解决方案,本篇先了解传统存储问题和Ceph的优势,介绍总体架构和组成部分,说明官网文档部署和部署版本建议,了解几种部署方式,最后通过Cephadm快速部署一个简单暂无存储节点的集群,后续可以在此基础上进行高可用节点的和存储节点的扩缩容
阅读全文
