年少纵马且长歌

2021年9月9日

摘要：注：演示纠删码和异构存储需要一共5台服务器。尽量拿另外一套集群。提前准备5台服务器的集群。一、纠删码基本概述 1.纠删码原理 HDFS默认情况下，一个文件有3个副本，这样提高了数据的可靠性，但也带来了2倍的冗余开销。Hadoop3.x引入了纠删码，采用计算的方式，可以节省约50％左右的存储空间 2 阅读全文

posted @ 2021-09-09 12:14 年少纵马且长歌阅读(204) 评论(0) 推荐(0) 编辑

第二十三章 HDFS—集群扩容及缩容

摘要：一、添加白名单 1.概述白名单：表示在白名单的主机IP地址可以，用来存储数据。企业中：配置白名单，可以尽量防止黑客恶意访问攻击。 2.具体配置 #1.在NameNode节点的/opt/module/hadoop/etc/hadoop目录下分别创建whitelist和blacklist文件 1）创阅读全文

posted @ 2021-09-09 12:04 年少纵马且长歌阅读(89) 评论(0) 推荐(0) 编辑

第二十二章 HDFS—多目录

摘要：一、NameNode多目录配置 1.概述 # NameNode的本地目录可以配置成多个，且每个目录存放内容相同，增加了可靠性 2.具体配置 #1.在hdfs-site.xml文件中添加如下内容 <property> <name>dfs.namenode.name.dir</name> <value> 阅读全文

posted @ 2021-09-09 11:43 年少纵马且长歌阅读(81) 评论(0) 推荐(0) 编辑

第二十一章 HDFS—集群压测

摘要：一、压测准备在企业中非常关心每天从Java后台拉取过来的数据，需要多久能上传到集群？消费者关心多久能从HDFS上拉取需要的数据？为了搞清楚HDFS的读写性能，生产环境上非常需要对集群进行压测。 HDFS的读写性能主要受网络和磁盘影响比较大。为了方便测试，将hadoop102、hadoop103、阅读全文

posted @ 2021-09-09 11:40 年少纵马且长歌阅读(125) 评论(0) 推荐(0) 编辑

2021年9月8日

第二十章 HDFS—核心参数调优

摘要：一、NameNode内存生产配置 #1.NameNode内存计算每个文件块大概占用150byte，一台服务器128G内存为例，能存储多少文件块呢？ 128 * 1024 * 1024 * 1024 / 150Byte ≈ 9.1亿 G MB KB Byte #2.Hadoop2.x系列，配置Nam 阅读全文

posted @ 2021-09-08 15:10 年少纵马且长歌阅读(210) 评论(0) 推荐(0) 编辑

第十九章 Yarn案例实操

摘要：一、 Yarn生产环境核心参数配置案例 #1.需求：从1G数据中，统计每个单词出现次数。服务器3台，每台配置4G内存，4核CPU，4线程。 #2.需求分析： 1G / 128m = 8个MapTask；1个ReduceTask；1个mrAppMaster 平均每个节点运行10个 / 3台 ≈ 3个阅读全文

posted @ 2021-09-08 11:25 年少纵马且长歌阅读(327) 评论(0) 推荐(0) 编辑

第十八章 Yarn资源调度器

摘要：一、YARN概述思考： 1）如何管理集群资源？ 2）如何给任务合理分配资源？ Yarn是一个资源调度平台，负责为运算程序提供服务器运算资源，相当于一个分布式的操作系统平台，而MapReduce等运算程序则相当于运行于操作系统之上的应用程序。二、YARN基础架构 YARN主要由ResourceMa 阅读全文

posted @ 2021-09-08 11:20 年少纵马且长歌阅读(243) 评论(0) 推荐(0) 编辑

2021年9月7日

第十七章 Hadoop数据压缩

摘要：一、概述 #1.压缩的好处和坏处压缩的优点：以减少磁盘IO、减少磁盘存储空间。压缩的缺点：增加CPU开销。 #2.压缩原则 1）运算密集型的Job，少用压缩 2）IO密集型的Job，多用压缩二、MR支持的压缩编码 1.压缩算法对比介绍压缩格式 Hadoop自带？算法文件扩展名是否可切片阅读全文

posted @ 2021-09-07 15:33 年少纵马且长歌阅读(84) 评论(0) 推荐(0) 编辑

2021年9月6日

第十五章 Hadoop序列化

摘要：一、序列化含义序列化就是把内存中的对象，转换成字节序列（或其他数据传输协议）以便于存储到磁盘（持久化）和网络传输。反序列化就是将收到字节序列（或其他数据传输协议）或者是磁盘的持久化数据，转换成内存中的对象。二、序列化的背景一般来说，“活的”对象只生存在内存里，关机断电就没有了。而且“活的”对阅读全文

posted @ 2021-09-06 17:37 年少纵马且长歌阅读(43) 评论(0) 推荐(0) 编辑

第十四章 MapReduce概述

摘要：一、MapReduce基本含义 MapReduce是一个分布式运算程序的编程框架，是用户开发“基于Hadoop的数据分析应用”的核心框架。 MapReduce核心功能是将用户编写的业务逻辑代码和自带默认组件整合成一个完整的分布式运算程序，并发运行在一个Hadoop集群上。二、MapReduce优缺阅读全文

posted @ 2021-09-06 16:51 年少纵马且长歌阅读(164) 评论(0) 推荐(0) 编辑

青青子衿悠悠我心

当你的才华还撑不起你的野心的时候，你就应该静下心来学习

公告