上一页 1 ··· 14 15 16 17 18 19 20 21 22 ··· 40 下一页
摘要: 注:演示纠删码和异构存储需要一共5台服务器。尽量拿另外一套集群。提前准备5台服务器的集群。 一、纠删码基本概述 1.纠删码原理 HDFS默认情况下,一个文件有3个副本,这样提高了数据的可靠性,但也带来了2倍的冗余开销。Hadoop3.x引入了纠删码,采用计算的方式,可以节省约50%左右的存储空间 2 阅读全文
posted @ 2021-09-09 12:14 年少纵马且长歌 阅读(204) 评论(0) 推荐(0) 编辑
摘要: 一、添加白名单 1.概述 白名单:表示在白名单的主机IP地址可以,用来存储数据。 企业中:配置白名单,可以尽量防止黑客恶意访问攻击。 2.具体配置 #1.在NameNode节点的/opt/module/hadoop/etc/hadoop目录下分别创建whitelist和blacklist文件 1)创 阅读全文
posted @ 2021-09-09 12:04 年少纵马且长歌 阅读(89) 评论(0) 推荐(0) 编辑
摘要: 一、NameNode多目录配置 1.概述 # NameNode的本地目录可以配置成多个,且每个目录存放内容相同,增加了可靠性 2.具体配置 #1.在hdfs-site.xml文件中添加如下内容 <property> <name>dfs.namenode.name.dir</name> <value> 阅读全文
posted @ 2021-09-09 11:43 年少纵马且长歌 阅读(81) 评论(0) 推荐(0) 编辑
摘要: 一、压测准备 在企业中非常关心每天从Java后台拉取过来的数据,需要多久能上传到集群?消费者关心多久能从HDFS上拉取需要的数据? 为了搞清楚HDFS的读写性能,生产环境上非常需要对集群进行压测。 HDFS的读写性能主要受网络和磁盘影响比较大。为了方便测试,将hadoop102、hadoop103、 阅读全文
posted @ 2021-09-09 11:40 年少纵马且长歌 阅读(125) 评论(0) 推荐(0) 编辑
摘要: 一、NameNode内存生产配置 #1.NameNode内存计算 每个文件块大概占用150byte,一台服务器128G内存为例,能存储多少文件块呢? 128 * 1024 * 1024 * 1024 / 150Byte ≈ 9.1亿 G MB KB Byte #2.Hadoop2.x系列,配置Nam 阅读全文
posted @ 2021-09-08 15:10 年少纵马且长歌 阅读(210) 评论(0) 推荐(0) 编辑
摘要: 一、 Yarn生产环境核心参数配置案例 #1.需求: 从1G数据中,统计每个单词出现次数。服务器3台,每台配置4G内存,4核CPU,4线程。 #2.需求分析: 1G / 128m = 8个MapTask;1个ReduceTask;1个mrAppMaster 平均每个节点运行10个 / 3台 ≈ 3个 阅读全文
posted @ 2021-09-08 11:25 年少纵马且长歌 阅读(327) 评论(0) 推荐(0) 编辑
摘要: 一、YARN概述 思考: 1)如何管理集群资源? 2)如何给任务合理分配资源? Yarn是一个资源调度平台,负责为运算程序提供服务器运算资源,相当于一个分布式的操作系统平台,而MapReduce等运算程序则相当于运行于操作系统之上的应用程序。 二、YARN基础架构 YARN主要由ResourceMa 阅读全文
posted @ 2021-09-08 11:20 年少纵马且长歌 阅读(243) 评论(0) 推荐(0) 编辑
摘要: 一、概述 #1.压缩的好处和坏处 压缩的优点:以减少磁盘IO、减少磁盘存储空间。 压缩的缺点:增加CPU开销。 #2.压缩原则 1)运算密集型的Job,少用压缩 2)IO密集型的Job,多用压缩 二、MR支持的压缩编码 1.压缩算法对比介绍 压缩格式 Hadoop自带? 算法 文件扩展名 是否可切片 阅读全文
posted @ 2021-09-07 15:33 年少纵马且长歌 阅读(84) 评论(0) 推荐(0) 编辑
摘要: 一、序列化含义 序列化就是把内存中的对象,转换成字节序列(或其他数据传输协议)以便于存储到磁盘(持久化)和网络传输。 反序列化就是将收到字节序列(或其他数据传输协议)或者是磁盘的持久化数据,转换成内存中的对象。 二、序列化的背景 一般来说,“活的”对象只生存在内存里,关机断电就没有了。而且“活的”对 阅读全文
posted @ 2021-09-06 17:37 年少纵马且长歌 阅读(43) 评论(0) 推荐(0) 编辑
摘要: 一、MapReduce基本含义 MapReduce是一个分布式运算程序的编程框架,是用户开发“基于Hadoop的数据分析应用”的核心框架。 MapReduce核心功能是将用户编写的业务逻辑代码和自带默认组件整合成一个完整的分布式运算程序,并发运行在一个Hadoop集群上。 二、MapReduce优缺 阅读全文
posted @ 2021-09-06 16:51 年少纵马且长歌 阅读(164) 评论(0) 推荐(0) 编辑
上一页 1 ··· 14 15 16 17 18 19 20 21 22 ··· 40 下一页