随笔分类 -  Hadoop

摘要:【转行原因】目前数据每天已亿计算,作为 Java程序员的我已经无法使用常规工具对数据进行捕捉、管理和处理这些数据集合。MySQL的存储容量也只有500-1000行数据。而且数据每天还在告诉增长,还不带重样的。还有就是跟着党走,我要搞新基建。所以我来了,我来了,我踏着七彩祥云走来了..... 按顺序给 阅读全文
posted @ 2020-11-21 20:57 Java程序员进阶 阅读(321) 评论(0) 推荐(0) 编辑
摘要:一、准备工作 【1】创建用户:useradd 用户名【2】配置创建的用户具有 root权限,修改 /etc/sudoers 文件,找到下面一行,在root下面添加一行,如下所示:(注意:需要先给sudoer 文件赋权限,修改完会后,将权限修改回来)修改完毕,现在可以用创建的帐号登录,然后用命令 su 阅读全文
posted @ 2020-11-21 20:54 Java程序员进阶 阅读(2276) 评论(1) 推荐(1) 编辑
摘要:一、HDFS 概述 HDFS 产生背景:随着数据量越来越多,一个系统存储不下所有的数据,那么就需要分配到多个操作系统的磁盘中进行存储,但是不方便管理和维护,迫切需要一种系统来管理多台机器上的文件,这就是分布式文件管理系统。HDFS 只是分布式文件管理系统的一种。 HDFS 定义:HDFS(Hadoo 阅读全文
posted @ 2020-11-21 20:52 Java程序员进阶 阅读(234) 评论(0) 推荐(0) 编辑
摘要:优质博文:IT-BLOG-CN 一、DataNode工作机制 DataNode工作机制,如下所示:​ 【1】一个数据块在 DataNode上以文件形式存储在磁盘上,包括两个文件,一个是数据本身,一个是元数据包括数据块的长度,块数据的校验和,以及时间戳。【2】DataNode启动后向 NameNode 阅读全文
posted @ 2020-11-21 20:02 Java程序员进阶 阅读(2) 评论(0) 推荐(0) 编辑
摘要:优质博文:IT-BLOG-CN 一、NN和2NN工作机制 思考:NameNode中的元数据是存储在哪里的?首先,我们做个假设,如果存储在 NameNode节点的磁盘中,因为经常需要进行随机访问,还有响应客户请求,必然是效率过低。因此,元数据需要存放在内存中。但如果只存在内存中,一旦断电,元数据丢失, 阅读全文
posted @ 2020-11-21 20:00 Java程序员进阶 阅读(9) 评论(0) 推荐(0) 编辑
摘要:优质博文:IT-BLOG-CN 一、HDFS 写数据流程 HDFS 文件写入流程图如下:三个模块(客户端、NameNode、DataNode)​【1】校验:客户端通过 DistributedFileSystem 模块向 NameNode 请求上传文件,NameNode 会检查目标文件是否已经存在,父 阅读全文
posted @ 2020-11-21 19:46 Java程序员进阶 阅读(9) 评论(0) 推荐(0) 编辑
摘要:优质博文:IT-BLOG-CN 一、Yarn 概述 Yarn 是一个资源调度平台,负责为运算程序提供服务器运算资源,相当于一个分布式的操作系统平台,而 mapreduce等运算程序则相当于运行于操作系统之上的应用程序。 Yarn 的重要概念:【1】Yarn并不清楚用户提交的程序的运行机制;【2】Ya 阅读全文
posted @ 2020-11-15 00:23 Java程序员进阶 阅读(6) 评论(0) 推荐(0) 编辑
摘要:优质博文:IT-BLOG-CN 本文从利用率提升、多负载场景优化、稳定性提升、异地多活四个方面介绍了字节跳动在四年来对 Hadoop YARN 进行的一系列的优化,以及生产环境中的实践经验。 YARN 简介 YARN 生态圈 YARN (Yet Another Resource Negotiator 阅读全文
posted @ 2020-11-14 18:30 Java程序员进阶 阅读(18) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示