05 2023 档案
摘要:[TOC]  ## 一、概述 `MySQL` 是一种开源的关系型数据库管理系统(`RDBMS`),以其快速、可靠和
阅读全文
摘要:[TOC]  ## 一、概述 Redis(全称:Remote Dictionary Server,即远程字典服务器
阅读全文
摘要:[TOC]  ## 一、概述 Kafka是由Apache基金会开发的分布式流处理平台,采用发布-订阅模式,支持高吞吐
阅读全文
摘要:[TOC]  ## 一、概述 Zookeeper是一个开源的分布式协调服务中间件,它提供了一种分布式数据管理服务,
阅读全文
摘要:[TOC]  ## 一、概述 Presto(现在叫Trino)是一个分布式SQL查询引擎,它允许用户在多个数据源上执
阅读全文
摘要:一、概述 Presto(Trino)是一个快速、分布式的SQL查询引擎,可以用于查询各种数据源,包括Hadoop、NoSQL、关系型数据库等。下面是Presto(Trino)SQL语法的概述: 它支持标准SQL语法,包括以下SQL命令: SELECT:用于从一个或多个表中检索数据,指定所需的列和过滤
阅读全文
摘要:一、概述 Trino (前身为PrestoSQL)是一款高性能,分布式的SQL查询引擎,可以用于查询各种类型的数据存储,包括Hive、Mysql、Elasticsearch、Kafka、PostgreSQL等。在使用Trino时,可以通过一些参数来控制查询的行为,例如: coordinator节点和
阅读全文
摘要:一、概述 Presto是一个快速的分布式查询引擎,最初由Facebook开发,目前归属于 Presto Software Foundation(由 Facebook、Teradata 和其他公司共同支持)。Presto的核心特点是支持远程数据访问,可以查询包括Hadoop、Cassandra、Rel
阅读全文
摘要:一、Hive 小文件概述 在Hive中,所谓的小文件是指文件大小远小于HDFS块大小的文件,通常小于128 MB,甚至更少。这些小文件可能是Hive表的一部分,每个小文件都包含一个或几个表的记录,它们以文本格式存储。 Hive通常用于分析大量数据,但它在处理小文件方面表现不佳,Hive中存在大量小文
阅读全文
摘要:一、YARN Proxy 概述 Web应用程序代理是YARN的一部分。默认情况下,它将作为资源管理器(RM)的一部分运行,但可以配置为以独立模式运行。代理的原因是为了减少通过YARN进行基于网络的攻击的可能性。 在YARN中,应用主机(AM)有责任提供web UI并将该链接发送到RM。这引发了许多潜
阅读全文
摘要:一、概述 在YARN中,应用程序和Container的状态变化会影响任务的执行和资源分配。下面是YARN中应用程序和Container的状态详细过程: 1)Application 状态 是指YARN应用程序的状态。每个应用程序都有一个唯一的Application ID,并且可以通过ResourceM
阅读全文
摘要:一、概述 Hive是一个基于Hadoop的数据仓库解决方案,它提供了类似于SQL的查询语言,称为HiveQL,用于处理结构化数据。在Hive中,JOIN操作用于将两个或多个表中的数据连接在一起,以便进行联合查询和分析。 Hive 中 的 Join 可分为 Common Join(Reduce阶段完成
阅读全文
摘要:一、概述 Hive是建立在Hadoop上的数据仓库工具,它允许用户通过类SQL的语法来查询和管理数据。在Hive中,DDL(数据定义语言)和视图操作是非常常见的。 1)表和视图关系 表和视图都是数据存储的逻辑表示方式。它们之间有以下关系: 视图可以基于一个或多个表创建,而表不可以基于其他表或视图创建
阅读全文
摘要:一、概述 Hive是基于Hadoop的一个数据仓库工具,可以将结构化数据文件映射为一张数据库表,并提供类SQL语句操作。Hive内置了很多函数,可以满足基本的查询需求,同时还支持自定义函数(UDF)来实现更加灵活的操作。 官方文档:https://cwiki.apache.org/confluenc
阅读全文
摘要:一、概述 在大数据处理过程中,Hive是一种非常常用的数据仓库工具。Hive分区和分桶是优化Hive性能的两种方式,它们的区别如下: 1)分区概述 Hive分区是把数据按照某个属性分成不同的数据子集。 在Hive中,数据被存储在HDFS中,每个分区实际上对应HDFS下的一个文件夹,这个文件夹中保存了
阅读全文