Hadoop - 随笔分类 - 一年都在冬眠

Hadoop（二十二）CM Kerberos基本原理

摘要：基于CDP的CM维护Hadoop生态组件 CDP Cloudera Data Platform（CDP）是Cloudera公司推出的一个全面的数据平台，它支持在多云环境中部署和管理数据 CDP提供了一种统一的方法来管理数据和分析工作负载，无论是在本地、公有云还是私有云环境中 CDP包括多种服务和工具阅读全文

posted @ 2024-09-19 15:07 一年都在冬眠阅读(65) 评论(0) 推荐(0) 编辑

Hadoop（二十一）Kafka工作原理

摘要：基本概念 Kafka是一个分布式实时数据流平台，可独立部署在单台服务器上，也可部署在多台服务器上构成集群。它提供了发布与订阅功能，用户可以发送数据到Kafka集群中，也可以从Kafka集群中读取数据 1、代理(Broker) 在Kafka集群中,一个Kafka进程(Kafka进程又称为 Kafka实阅读全文

posted @ 2024-09-19 14:33 一年都在冬眠阅读(34) 评论(0) 推荐(0) 编辑

Hadoop（二十）Yarn工作原理

摘要：Yarn资源调度器 Yarn是一个资源调度平台，负责为运算程序提供服务器运算资源，相当于一个分布式的操作系统平台，而MapReduce等运算程序则相当于运行于操作系统之上的应用程序一、基础架构 YARN主要由ResourceManager、NodeManager、ApplicationMaster 阅读全文

posted @ 2024-09-19 13:48 一年都在冬眠阅读(38) 评论(0) 推荐(0) 编辑

Hadoop（十九）MapReduce OutputFormat 数据压缩

摘要：OutputFormat OutputFormat是MapReduce输出的基类，所有实现MapReduce输出都实现了OutputFormat接口几种常见的OutputFormat实现类：NullOutputFormat、MapFileOutputFormat、TextOutputFormat等阅读全文

posted @ 2024-09-19 11:00 一年都在冬眠阅读(26) 评论(0) 推荐(0) 编辑

Hadoop（十八）MapReduce Shuffle机制

摘要：MapReduce工作流程上面的流程是整个MapReduce最全工作流程，但是Shuffle过程只是从第7步开始到第16步结束，具体Shuffle过程详解，如下： MapTask收集map()方法输出的kv对，放到内存缓冲区中从内存缓冲区不断溢出本地磁盘文件，可能会溢出多个文件多个溢出文件会被阅读全文

posted @ 2024-09-19 10:35 一年都在冬眠阅读(138) 评论(0) 推荐(0) 编辑

Hadoop（十七）MapReduce 切片机制 InputFormat

摘要：切片与MapTask并行度决定机制 MapTask的并行度决定Map阶段的任务处理并发度，进而影响到整个Job的处理速度数据块：Block是HDFS物理上把数据分成一块一块，数据块是HDFS存储数据单位数据切片：数据切片只是在逻辑上对输入进行分片，并不会在磁盘上将其切分成片进行存储，数据切片是M 阅读全文

posted @ 2024-09-19 10:00 一年都在冬眠阅读(67) 评论(0) 推荐(0) 编辑

Hadoop（十六）MapReduce 序列化

摘要：一、概述 1、什么是序列化序列化就是把内存中的对象，转换成字节序列（或其他数据传输协议）以便于存储到磁盘（持久化）和网络传输反序列化就是将收到字节序列（或其他数据传输协议）或者是磁盘的持久化数据，转换成内存中的对象。 2、为什么要序列化数据持久化：序列化允许将内存中的数据结构保存到文件或数据库阅读全文

posted @ 2024-09-19 09:12 一年都在冬眠阅读(24) 评论(0) 推荐(0) 编辑

Hadoop（十五）项目考核 WordCount案例

摘要：一、需求分析需求：在给定的文本文件中统计输出每一个单词出现的总次数 SEVENTEEN.txt文本内容如下： say the name seventeen hello we are seventeen nice to meet you you very nice 按照MapReduce编程规范，分阅读全文

posted @ 2024-09-18 17:00 一年都在冬眠阅读(20) 评论(0) 推荐(0) 编辑

Hadoop（十四）MapReduce概述

摘要：一、定义 MapReduce是一个分布式运算程序的编程框架，是用户开发“基于Hadoop的数据分析应用”的核心框架 MapReduce核心功能是将用户编写的业务逻辑代码和自带默认组件整合成一个完整的分布式运算程序，并发运行在一个Hadoop集群上二、优缺点优点描述易于编程它简单的实现一些接阅读全文

posted @ 2024-09-18 14:44 一年都在冬眠阅读(47) 评论(0) 推荐(0) 编辑

Hadoop（十三）HDFS DataNode

摘要：一、DataNode工作机制 1、一个数据块在DataNode上以文件形式存储在磁盘上，包括两个文件，一个是数据本身，一个是元数据包括数据块的长度，块数据的校验和，以及时间戳 2、DataNode启动后向NameNode注册，通过后，周期性（6小时）的向NameNode上报所有的块信息 3、心跳是每阅读全文

posted @ 2024-09-18 14:19 一年都在冬眠阅读(51) 评论(0) 推荐(0) 编辑

Hadoop（十二）HDFS NameNode 和 SecondaryNameNode

摘要：一、NN和2NN工作机制 1、NameNode中的元数据存储在哪里？存储在NameNode节点的磁盘中会导致效率过低，因为经常需要进行随机访问和响应客户请求；存储在内存中，一旦元数据丢失，整个集群就无法工作，也不合适。因此产生了在磁盘中备份元数据的FsImage。引入Edits文件（只进行追加操阅读全文

posted @ 2024-09-18 14:05 一年都在冬眠阅读(77) 评论(0) 推荐(0) 编辑

Hadoop（十一）HDFS 读写数据流程

摘要：HDFS读写数据流程一、写数据流程 1、客户端通过Distributed FileSystem模块向NameNode请求上传文件，NameNode检查目标文件是否已存在，父目录是否存在 2、NameNode返回是否可以上传 3、客户端请求第一个Block上传到哪几个DataNode服务器上 4、N 阅读全文

posted @ 2024-09-18 09:36 一年都在冬眠阅读(31) 评论(0) 推荐(0) 编辑

Hadoop（十）HDFS API操作

摘要：API操作 Shell操作是在集群内部，即hadoop102上进行操作，API操作是希望在Windows上能远程连接集群实现增删改查操作一、客户端环境准备 1、找到资料包路径下的Windows依赖文件夹，拷贝hadoop-3.1.0到非中文路径 2、在Windows上配置HADOOP_HOME环境阅读全文

posted @ 2024-09-14 17:03 一年都在冬眠阅读(107) 评论(0) 推荐(0) 编辑

Hadoop（九）HDFS Shell操作

摘要：Shell操作一、基本语法 hadoop fs 具体命令 hdfs dfs 具体命令二、命令大全 [user@hadoop102 ~]$ hadoop fs Usage: hadoop fs [generic options] [-appendToFile <localsrc> ... <dst 阅读全文

posted @ 2024-09-14 10:42 一年都在冬眠阅读(19) 评论(0) 推荐(0) 编辑

Hadoop（八）HDFS 概述

摘要：HDFS概述一、产生背景和定义 1、产生背景一个操作系统存不下所有的数据，那么就分配到更多的操作系统管理的磁盘中，但是不方便管理和维护，迫切需要一种系统来管理多台机器上的件，这就是分布式文件管理系统。HDFS只是分布式文件管理系统中的一种。 2、定义 HDFS（Hadoop Distribute 阅读全文

posted @ 2024-09-14 09:21 一年都在冬眠阅读(39) 评论(0) 推荐(0) 编辑

Hadoop（七）集群搭建过程中遇到的问题及解决方法

摘要：遇到的问题及解决方法 1、Hadoop启动正常，但是进不了web端hadoop102：9870 解决方法：查看自己的hosts文件（C:\Windows\System32\drivers\etc），发现没有配置相关网点，添加如下内容（不需要在前面加'#'）： 192.168.10.100 hadoo 阅读全文

posted @ 2024-09-13 15:32 一年都在冬眠阅读(109) 评论(0) 推荐(0) 编辑

Hadoop（六）生产集群搭建（三）

摘要：完全分布式运行模式一、群起集群 1、配置workers [user@hadoop102 hadoop]$ vim /opt/module/hadoop-3.1.3/etc/hadoop/workers 在文件中添加如下内容： hadoop102 hadoop103 hadoop104 2、启动集群阅读全文

posted @ 2024-09-13 15:26 一年都在冬眠阅读(17) 评论(0) 推荐(0) 编辑

Hadoop（五）生产集群搭建（二）

摘要：完全分布式运行模式一、SSH无密登录配置 1、基本语法 ssh 另一台电脑的IP地址 [user@hadoop102 ~]$ ssh hadoop103 退回hadoop102 [user@hadoop103 ~]$ exit 2、配置（1）生成公钥和私钥 [user@hadoop102 .ss 阅读全文

posted @ 2024-09-12 17:29 一年都在冬眠阅读(9) 评论(0) 推荐(0) 编辑

Hadoop（四）生产集群搭建（一）

摘要：生产集群搭建 Hadoop运行模式包括：本地模式、伪分布式模式以及完全分布式模式本地模式（官方WorldCount）单机运行，生产环境不用数据存储在Linux本地例子：使用 Hadoop 运行一个 MapReduce 程序来执行词频统计 1、在hadoop-3.1.3文件下面创建一个wcin 阅读全文

posted @ 2024-09-12 15:59 一年都在冬眠阅读(35) 评论(0) 推荐(0) 编辑

Hadoop（三）环境准备

摘要：环境准备模板虚拟机准备 1、安装模板虚拟机 IP地址192.168.10.100、主机名称hadoop100、内存4G、硬盘50G 下载安装VWare Workstation Pro 16，因为Win11与VMWare15不兼容，在15中打开虚拟机会蓝屏 Linux系统全部以CentOS-7.5- 阅读全文

posted @ 2024-09-11 15:26 一年都在冬眠阅读(18) 评论(0) 推荐(0) 编辑

shihongpin

随笔分类 - Hadoop

公告

搜索

常用链接

随笔分类

随笔档案

阅读排行榜