摘要: Hive的架构设计是为了处理存储在Hadoop文件系统(HDFS)中的大规模数据集,并支持通过类似SQL的查询语言(HiveQL)进行数据查询和分析。以下是Hive的详细架构:### Hive架构的主要组件:#### 1. 用户接口(User Interface)- **CLI**(Command 阅读全文
posted @ 2024-09-14 09:14 dededea 阅读(19) 评论(0) 推荐(0) 编辑
摘要: Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供简单的SQL查询功能,下面是Hive的一些核心知识点:### 基本概念1. **Hive Metastore**:存储了Hive中所有表和分区的元数据信息。2. **HiveQL (HQL)**:Hive查 阅读全文
posted @ 2024-09-14 09:06 dededea 阅读(9) 评论(0) 推荐(0) 编辑
摘要: * Hadoop有哪些组件,分别介绍一下 Hadoop Common: 为其他Hadoop模块提供基础设施,包括文件系统、远程过程调用(RPC)和序列化机制。 Hadoop Distributed File System (HDFS): 分布式文件系统,可以存储大量数据,并且提供高吞吐量的数据访问。 阅读全文
posted @ 2024-09-13 09:30 dededea 阅读(6) 评论(0) 推荐(0) 编辑
摘要: 2.mapreduce工作流程流程一流程二3.shuffle3.1.shuffle机制map方法之后,reduce方法之前的数据处理过程称之为shuffle3.2.分区3.3.writablecomparable排序(1)排序概述(2)排序分类3.4.combiner合并 阅读全文
posted @ 2024-09-12 09:21 dededea 阅读(4) 评论(0) 推荐(0) 编辑
摘要: 4.输出数据outputformat接口实现类5.mapreduce内核源码解析5.1.maptask工作机制(1)read阶段:maptask通过inputformat获得的recordreader,从输出 inputsplit中解析一个个key/value5.2.reducetask工作机制5. 阅读全文
posted @ 2024-09-10 01:03 dededea 阅读(4) 评论(0) 推荐(0) 编辑
摘要: MR一.MR概述1.mr定义Mr是一个分布式运算程序的编程框架,是用户开发”基于hadoop的数据分析应 用”的核心框架Mr核心功能是将用户编写的业务逻辑代码和自带默认组件整合成一个完整地 分布式运算程序,并发运行在一个hadoop集群上2.mr优缺点2.1.优点(1)易于编程.用户只关心业务逻辑. 阅读全文
posted @ 2024-09-10 01:01 dededea 阅读(17) 评论(0) 推荐(0) 编辑
摘要: HDFS一.HDFS概述1.HDFS的产生背景和定义(1)HDFS产生背景随着数据量越来越大,在一个操作系统存不下所有的数据,那么就分配到 更多的操作系统管理的磁盘中,但是不方便管理和维护,迫切需要一种系 统来管理多台机器上的文件,这就是分布式管理系统.HDFS只是分布式文 件管理系统中的一种(2) 阅读全文
posted @ 2024-09-09 15:18 dededea 阅读(21) 评论(0) 推荐(0) 编辑
摘要: Hadoop入门一.概念1.hadoop是什么 (1)Hadoop是一个由apache基金会所开发的分布式系统基础架构(2)主要解决,海量数据的存储和海量数据的分析计算问题(3)广义上来说,hadoop通常是指一个更广泛的概念--hadoop生态圈2.Hadoop发展历史(1)创始人Doug Cut 阅读全文
posted @ 2024-09-07 11:33 dededea 阅读(18) 评论(0) 推荐(0) 编辑
摘要: Javase入门基础1.会常用的dos命令2.会安装java所需要的环境(jdk)3.会配置java的环境变量4.知道java开发三步骤5.会入门程序6.会三种注释方式7.Java入门程序所需要注意的地方8.println和print区别一、算机编程核心语法(固定格式)数据类型、运算符、流程控制、数 阅读全文
posted @ 2024-09-05 19:48 dededea 阅读(8) 评论(0) 推荐(0) 编辑
摘要: 常量 变量 类型转换 进制转换1.常量的使用2.变量的使用3.会强制类型转换一、常量(一)常量的分类1.概述:在代码的运行过程中,其值不会发生改变的数据2.分类: 整数常量:所有整数 小数常量:所有带小数点的 字符常量:带单引号,有且只能有一个内容 字符串常量:带双引号 布尔常量:true flas 阅读全文
posted @ 2024-09-05 19:48 dededea 阅读(30) 评论(0) 推荐(0) 编辑