2023 年 5月随笔档案 - 大数据老司机

通过 docker-compose 快速部署 MySQL保姆级教程

摘要：[TOC] ![](https://img2023.cnblogs.com/blog/1601821/202305/1601821-20230529224714391-1787716387.png) ## 一、概述 `MySQL` 是一种开源的关系型数据库管理系统（`RDBMS`），以其快速、可靠和阅读全文

posted @ 2023-05-29 22:48 大数据老司机阅读(8935) 评论(0) 推荐(1) 编辑

通过 docker-compose 快速部署 Redis 保姆级教程

摘要：[TOC] ![](https://img2023.cnblogs.com/blog/1601821/202305/1601821-20230523235208576-1289947568.png) ## 一、概述 Redis（全称：Remote Dictionary Server，即远程字典服务器阅读全文

posted @ 2023-05-23 23:52 大数据老司机阅读(2565) 评论(0) 推荐(0) 编辑

【中间件】通过 docker-compose 快速部署 Kafka 保姆级教程

摘要：[TOC] ![](https://img2023.cnblogs.com/blog/1601821/202305/1601821-20230521175431338-994462764.png) ## 一、概述 Kafka是由Apache基金会开发的分布式流处理平台，采用发布-订阅模式，支持高吞吐阅读全文

posted @ 2023-05-21 17:58 大数据老司机阅读(2930) 评论(0) 推荐(0) 编辑

【中间件】通过 docker-compose 快速部署 Zookeeper 保姆级教程

摘要：[TOC] ![](https://img2023.cnblogs.com/blog/1601821/202305/1601821-20230520172026914-1384604878.png) ## 一、概述 Zookeeper是一个开源的分布式协调服务中间件，它提供了一种分布式数据管理服务，阅读全文

posted @ 2023-05-20 17:20 大数据老司机阅读(1264) 评论(0) 推荐(0) 编辑

【大数据】Presto（Trino）REST API 与执行计划介绍

摘要：[TOC] ![](https://img2023.cnblogs.com/blog/1601821/202305/1601821-20230519215611242-227854739.png) ## 一、概述 Presto（现在叫Trino）是一个分布式SQL查询引擎，它允许用户在多个数据源上执阅读全文

posted @ 2023-05-19 21:57 大数据老司机阅读(968) 评论(0) 推荐(0) 编辑

【大数据】Presto（Trino）SQL 语法进阶

摘要：一、概述 Presto（Trino）是一个快速、分布式的SQL查询引擎，可以用于查询各种数据源，包括Hadoop、NoSQL、关系型数据库等。下面是Presto（Trino）SQL语法的概述：它支持标准SQL语法，包括以下SQL命令： SELECT：用于从一个或多个表中检索数据，指定所需的列和过滤阅读全文

posted @ 2023-05-17 23:57 大数据老司机阅读(3170) 评论(0) 推荐(0) 编辑

【大数据】Presto（Trino）配置参数以及 SQL语法

摘要：一、概述 Trino (前身为PrestoSQL)是一款高性能，分布式的SQL查询引擎，可以用于查询各种类型的数据存储，包括Hive、Mysql、Elasticsearch、Kafka、PostgreSQL等。在使用Trino时，可以通过一些参数来控制查询的行为，例如： coordinator节点和阅读全文

posted @ 2023-05-14 21:51 大数据老司机阅读(2545) 评论(0) 推荐(0) 编辑

【大数据】通过 docker-compose 快速部署 Presto（Trino）保姆级教程

摘要：一、概述 Presto是一个快速的分布式查询引擎，最初由Facebook开发，目前归属于 Presto Software Foundation（由 Facebook、Teradata 和其他公司共同支持）。Presto的核心特点是支持远程数据访问，可以查询包括Hadoop、Cassandra、Rel 阅读全文

posted @ 2023-05-14 09:02 大数据老司机阅读(967) 评论(0) 推荐(0) 编辑

【大数据】Hive 小文件治理和 HDFS 数据平衡讲解

摘要：一、Hive 小文件概述在Hive中，所谓的小文件是指文件大小远小于HDFS块大小的文件，通常小于128 MB，甚至更少。这些小文件可能是Hive表的一部分，每个小文件都包含一个或几个表的记录，它们以文本格式存储。 Hive通常用于分析大量数据，但它在处理小文件方面表现不佳，Hive中存在大量小文阅读全文

posted @ 2023-05-10 22:29 大数据老司机阅读(851) 评论(0) 推荐(0) 编辑

【大数据】yarn proxyserver 和 historyserver 讲解

摘要：一、YARN Proxy 概述 Web应用程序代理是YARN的一部分。默认情况下，它将作为资源管理器（RM）的一部分运行，但可以配置为以独立模式运行。代理的原因是为了减少通过YARN进行基于网络的攻击的可能性。在YARN中，应用主机（AM）有责任提供web UI并将该链接发送到RM。这引发了许多潜阅读全文

posted @ 2023-05-09 00:11 大数据老司机阅读(649) 评论(0) 推荐(0) 编辑

【大数据】yarn 任务中的几种状态变化详细过程

摘要：一、概述在YARN中，应用程序和Container的状态变化会影响任务的执行和资源分配。下面是YARN中应用程序和Container的状态详细过程： 1）Application 状态是指YARN应用程序的状态。每个应用程序都有一个唯一的Application ID，并且可以通过ResourceM 阅读全文

posted @ 2023-05-08 22:11 大数据老司机阅读(1031) 评论(0) 推荐(0) 编辑

【大数据】Hive Join 的原理与机制

摘要：一、概述 Hive是一个基于Hadoop的数据仓库解决方案，它提供了类似于SQL的查询语言，称为HiveQL，用于处理结构化数据。在Hive中，JOIN操作用于将两个或多个表中的数据连接在一起，以便进行联合查询和分析。 Hive 中的 Join 可分为 Common Join（Reduce阶段完成阅读全文

posted @ 2023-05-07 20:32 大数据老司机阅读(1120) 评论(0) 推荐(0) 编辑

【大数据】Hive DDL 操作与视图讲解

摘要：一、概述 Hive是建立在Hadoop上的数据仓库工具，它允许用户通过类SQL的语法来查询和管理数据。在Hive中，DDL（数据定义语言）和视图操作是非常常见的。 1）表和视图关系表和视图都是数据存储的逻辑表示方式。它们之间有以下关系：视图可以基于一个或多个表创建，而表不可以基于其他表或视图创建阅读全文

posted @ 2023-05-05 23:39 大数据老司机阅读(790) 评论(0) 推荐(0) 编辑

【大数据】Hive 内置函数和 UDF 讲解

摘要：一、概述 Hive是基于Hadoop的一个数据仓库工具，可以将结构化数据文件映射为一张数据库表，并提供类SQL语句操作。Hive内置了很多函数，可以满足基本的查询需求，同时还支持自定义函数(UDF)来实现更加灵活的操作。官方文档：https://cwiki.apache.org/confluenc 阅读全文

posted @ 2023-05-05 21:23 大数据老司机阅读(623) 评论(0) 推荐(0) 编辑

【大数据】Hive 分区和分桶的区别及示例讲解

摘要：一、概述在大数据处理过程中，Hive是一种非常常用的数据仓库工具。Hive分区和分桶是优化Hive性能的两种方式，它们的区别如下： 1）分区概述 Hive分区是把数据按照某个属性分成不同的数据子集。在Hive中，数据被存储在HDFS中，每个分区实际上对应HDFS下的一个文件夹，这个文件夹中保存了阅读全文

posted @ 2023-05-03 19:54 大数据老司机阅读(864) 评论(0) 推荐(0) 编辑

技术栈

匠人精神，持之以恒！

05 2023 档案

公告

搜索

常用链接

我的标签

随笔档案

阅读排行榜

评论排行榜

推荐排行榜

最新评论