随笔分类 -  Hadoop

摘要:存储格式1 SequenceFile以二进制键值对的形式存储数据,支持三种记录存储方式。.无压缩: io效率较差,相比压缩,不压缩的情况下没有什么优势。记录级压缩:对每条记录都压缩,这种压缩效率比较一 般。块级压缩: 这里的块不同于HDFS中的块的概念.这种方式会将达到指定块大小的二进制数据压缩为一 阅读全文
posted @ 2023-01-05 09:22 莲藕淹 阅读(439) 评论(0) 推荐(0) 编辑
摘要:Hadoop详解(10) - Hadoop HA高可用 HA概述 HA(High Availablity),即高可用(7*24小时不中断服务)。 实现高可用最关键的策略是消除单点故障。HA严格来说应该分成各个组件的HA机制:HDFS的HA和YARN的HA。 Hadoop2.0之前,在HDFS集群中N 阅读全文
posted @ 2021-12-14 15:26 莲藕淹 阅读(455) 评论(0) 推荐(0) 编辑
摘要:Hadoop详解(09) - Hadoop新特性 Hadoop2.x新特性 远程主机之间的文件复制 scp实现两个远程主机之间的文件复制 推 push:scp -r hello.txt root@hadoop103:/user/atguigu/hello.txt 拉 pull:scp -r root 阅读全文
posted @ 2021-12-14 15:25 莲藕淹 阅读(92) 评论(0) 推荐(0) 编辑
摘要:Hadoop详解(07) - Hdfs数据压缩 概述 压缩技术能够有效减少底层存储系统(HDFS)读写字节数。压缩提高了网络带宽和磁盘空间的效率。在运行MR程序时,I/O操作、网络数据传输、 Shuffle和Merge要花大量的时间,尤其是数据规模很大和工作负载密集的情况下,因此,使用数据压缩显得非 阅读全文
posted @ 2021-12-14 15:24 莲藕淹 阅读(559) 评论(0) 推荐(0) 编辑
摘要:Hadoop详解(08) - Hadoop企业优化方案.docx MapReduce优化 MapReduce 跑的慢的原因 计算机性能:CPU、内存、磁盘健康、网络 I/O 操作优化 (1)数据倾斜 (2)Map和Reduce的Task数设置不合理 (3)Map运行时间太长,导致Reduce等待过久 阅读全文
posted @ 2021-12-14 15:24 莲藕淹 阅读(55) 评论(0) 推荐(0) 编辑
摘要:Hadoop详解(06) - Yarn平台架构和资源调度器 Yarn平台架构 Yarn是一个资源调度平台,负责为运算程序提供服务器运算资源,相当于一个分布式的操作系统平台,而MapReduce等运算程序则相当于运行于操作系统之上的应用程序。 Yarn基本架构 YARN主要由ResourceManag 阅读全文
posted @ 2021-12-14 15:23 莲藕淹 阅读(183) 评论(0) 推荐(0) 编辑
摘要:Hadoop详解(05) – MapReduce MapReduce概述 定义 MapReduce是一个分布式运算程序的编程框架,是用户 "基于Hadoop的数据分析应用" 开发的核心框架。 MapReduce核心功能是将用户编写的业务逻辑代码和自带默认组件整合成一个完整的分布式运算程序,并行运行在 阅读全文
posted @ 2021-12-14 15:22 莲藕淹 阅读(255) 评论(0) 推荐(0) 编辑
摘要:Hadoop详解(04-1) - 基于hadoop3.1.3配置Windows10本地开发运行环境 环境准备 安装jdk环境 安装idea 配置maven 搭建好的hadoop集群 配置hadoop 解压hadoopo 将hadoop压缩包hadoop-3.1.3.tar.gz解压到本地任意目录 拷 阅读全文
posted @ 2021-12-14 15:20 莲藕淹 阅读(3567) 评论(0) 推荐(1) 编辑
摘要:Hadoop详解(04)-Hdfs HDFS概述 HDFS产出背景及定义 背景:随着数据量越来越大,在一个操作系统存不下所有的数据,那么就分配到更多的操作系统管理的磁盘中,但是不方便管理和维护,迫切需要一种系统来管理多台机器上的文件,这就是分布式文件管理系统。HDFS只是分布式文件管理系统中的一种。 阅读全文
posted @ 2021-12-14 15:19 莲藕淹 阅读(313) 评论(0) 推荐(0) 编辑
摘要:Hadoop详解(03)-Hadoop编译源码-了解 准备工作 CentOS联网 配置CentOS能连接外网。Linux虚拟机ping www.baidu.com 是畅通的 jar包准备(hadoop源码、JDK8、maven、ant 、protobuf) (1)hadoop-3.1.3-src.t 阅读全文
posted @ 2021-12-01 21:01 莲藕淹 阅读(235) 评论(0) 推荐(0) 编辑
摘要:Hadoop详解(02)Hadoop集群运行环境搭建 虚拟机环境准备 虚拟机节点数:3台 操作系统版本:CentOS-7.6-x86-1810 虚拟机 内存4G,硬盘99G IP地址分配 192.168.194.102 hadoop102 192.168.194.103 hadoop103 192. 阅读全文
posted @ 2021-12-01 21:01 莲藕淹 阅读(612) 评论(0) 推荐(0) 编辑
摘要:Hadoop详解(01)概论 概念 大数据(Big Data):指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。主要解决,海量数据的存储和海量数据的分析计算问题。截至目前,人类生产的 阅读全文
posted @ 2021-11-22 20:17 莲藕淹 阅读(148) 评论(0) 推荐(0) 编辑
摘要:Linux下Hadoop3.2.0集群环境的搭建 张京坤 20190704 本文旨在提供最基本的,可以用于在生产环境进行Hadoop、HDFS分布式环境的搭建 一 准备工作 1.1 服务器 本案例使用Contos 7.6 64bit 在3台机器上部署集群 一台管理节点master,2台数据节点sla 阅读全文
posted @ 2021-11-21 20:14 莲藕淹 阅读(89) 评论(0) 推荐(0) 编辑
摘要:一 环境准备 1. 准备机器 2. 修改静态IP 3. 修改主机名 4. 关闭防火墙 5. 创建普通用户hadoop 添加hadoop用户 [root@hadoop102 ~]#useradd hadoop 设置密码 [root@hadoop102 ~]#passwd hadoop 6. 配置had 阅读全文
posted @ 2021-11-09 09:46 莲藕淹 阅读(230) 评论(0) 推荐(0) 编辑