随笔分类 - Hadoop
摘要:【转行原因】目前数据每天已亿计算,作为 Java程序员的我已经无法使用常规工具对数据进行捕捉、管理和处理这些数据集合。MySQL的存储容量也只有500-1000行数据。而且数据每天还在告诉增长,还不带重样的。还有就是跟着党走,我要搞新基建。所以我来了,我来了,我踏着七彩祥云走来了..... 按顺序给
阅读全文
摘要:一、准备工作 【1】创建用户:useradd 用户名【2】配置创建的用户具有 root权限,修改 /etc/sudoers 文件,找到下面一行,在root下面添加一行,如下所示:(注意:需要先给sudoer 文件赋权限,修改完会后,将权限修改回来)修改完毕,现在可以用创建的帐号登录,然后用命令 su
阅读全文
摘要:一、HDFS 概述 HDFS 产生背景:随着数据量越来越多,一个系统存储不下所有的数据,那么就需要分配到多个操作系统的磁盘中进行存储,但是不方便管理和维护,迫切需要一种系统来管理多台机器上的文件,这就是分布式文件管理系统。HDFS 只是分布式文件管理系统的一种。 HDFS 定义:HDFS(Hadoo
阅读全文
摘要:优质博文:IT-BLOG-CN 一、DataNode工作机制 DataNode工作机制,如下所示: 【1】一个数据块在 DataNode上以文件形式存储在磁盘上,包括两个文件,一个是数据本身,一个是元数据包括数据块的长度,块数据的校验和,以及时间戳。【2】DataNode启动后向 NameNode
阅读全文
摘要:优质博文:IT-BLOG-CN 一、NN和2NN工作机制 思考:NameNode中的元数据是存储在哪里的?首先,我们做个假设,如果存储在 NameNode节点的磁盘中,因为经常需要进行随机访问,还有响应客户请求,必然是效率过低。因此,元数据需要存放在内存中。但如果只存在内存中,一旦断电,元数据丢失,
阅读全文
摘要:优质博文:IT-BLOG-CN 一、HDFS 写数据流程 HDFS 文件写入流程图如下:三个模块(客户端、NameNode、DataNode)【1】校验:客户端通过 DistributedFileSystem 模块向 NameNode 请求上传文件,NameNode 会检查目标文件是否已经存在,父
阅读全文
摘要:优质博文:IT-BLOG-CN 一、Yarn 概述 Yarn 是一个资源调度平台,负责为运算程序提供服务器运算资源,相当于一个分布式的操作系统平台,而 mapreduce等运算程序则相当于运行于操作系统之上的应用程序。 Yarn 的重要概念:【1】Yarn并不清楚用户提交的程序的运行机制;【2】Ya
阅读全文
摘要:优质博文:IT-BLOG-CN 本文从利用率提升、多负载场景优化、稳定性提升、异地多活四个方面介绍了字节跳动在四年来对 Hadoop YARN 进行的一系列的优化,以及生产环境中的实践经验。 YARN 简介 YARN 生态圈 YARN (Yet Another Resource Negotiator
阅读全文