09 2022 档案

摘要:数仓Hive和分布式计算引擎Spark多整合方式实战和调优方向Hive与Spark之间整合有3种模式,本篇从Hive on Spark和Spark on Hive的使用出发,hive支持mr、tez和spark三种底层计算引擎,通过部署Hive on Spark环境实现Hive用到Spark的体验,Spark on Hive的使用则比较简单直接通过SQL操作Hive,最后罗列常见的一些大数据性能调优方法。 阅读全文
posted @ 2022-09-12 21:55 itxiaoshen 阅读(1692) 评论(0) 推荐(0) 编辑
摘要:大规模数据分析统一引擎Spark最新版本3.3.0入门实战本篇先了解Spark和Hadoop的关系与区别,进一步了解特性和相关组件架构;通过实战部署了Spark最新版本3.3.0的Local、Standalone+历史服务+HA、Yarn的部署完成操作步骤,并通过不同提交方式的示例和WebUI查看加深多Spark多种作业提交原理的理解,并拉开了使用Spark-Shell方式提交本地、集群、yarn交互式使用之门。 阅读全文
posted @ 2022-09-11 22:53 itxiaoshen 阅读(1365) 评论(0) 推荐(0) 编辑
摘要:Hive数据仓库工具基本架构和入门部署详解Hive是一个建立在Hadoop HDFS架构至上的数仓工具,管理元数据但本身不存储数据,本篇了解hive优缺点,进一步理解其组成部分和数据组织形式和Driver,最后通过部署最新版本3.1.3版本完成内嵌模式、本地metastore、远程hiveserver2和metastore打开进入hive使用的大门 阅读全文
posted @ 2022-09-10 11:22 itxiaoshen 阅读(824) 评论(0) 推荐(0) 编辑
摘要:全能成熟稳定开源分布式存储Ceph破冰之旅-上Ceph实现了分布式统一的存储,既支持对象存储、块设备存储还支持文件系统,不失为目前最成熟稳定的存储解决方案,本篇先了解传统存储问题和Ceph的优势,介绍总体架构和组成部分,说明官网文档部署和部署版本建议,了解几种部署方式,最后通过Cephadm快速部署一个简单暂无存储节点的集群,后续可以在此基础上进行高可用节点的和存储节点的扩缩容 阅读全文
posted @ 2022-09-07 22:44 itxiaoshen 阅读(1342) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示