Hadoop - 随笔分类 - Java程序员进阶

踏入大数据的第一天，我先入入门

摘要：【转行原因】目前数据每天已亿计算，作为 Java程序员的我已经无法使用常规工具对数据进行捕捉、管理和处理这些数据集合。MySQL的存储容量也只有500-1000行数据。而且数据每天还在告诉增长，还不带重样的。还有就是跟着党走，我要搞新基建。所以我来了，我来了,我踏着七彩祥云走来了..... 按顺序给阅读全文

posted @ 2020-11-21 20:57 Java程序员进阶阅读(321) 评论(0) 推荐(0) 编辑

Hadoop 安装及目录结构

摘要：一、准备工作【1】创建用户：useradd 用户名【2】配置创建的用户具有 root权限，修改 /etc/sudoers 文件，找到下面一行，在root下面添加一行，如下所示：（注意：需要先给sudoer 文件赋权限，修改完会后，将权限修改回来）修改完毕，现在可以用创建的帐号登录，然后用命令 su 阅读全文

posted @ 2020-11-21 20:54 Java程序员进阶阅读(2276) 评论(1) 推荐(1) 编辑

HDFS 组织架构

摘要：一、HDFS 概述 HDFS 产生背景：随着数据量越来越多，一个系统存储不下所有的数据，那么就需要分配到多个操作系统的磁盘中进行存储，但是不方便管理和维护，迫切需要一种系统来管理多台机器上的文件，这就是分布式文件管理系统。HDFS 只是分布式文件管理系统的一种。 HDFS 定义：HDFS（Hadoo 阅读全文

posted @ 2020-11-21 20:52 Java程序员进阶阅读(234) 评论(0) 推荐(0) 编辑

HDFS 之 DataNode 核心知识点

摘要：优质博文：IT-BLOG-CN 一、DataNode工作机制 DataNode工作机制，如下所示：【1】一个数据块在 DataNode上以文件形式存储在磁盘上，包括两个文件，一个是数据本身，一个是元数据包括数据块的长度，块数据的校验和，以及时间戳。【2】DataNode启动后向 NameNode 阅读全文

posted @ 2020-11-21 20:02 Java程序员进阶阅读(2) 评论(0) 推荐(0) 编辑

NameNode 和 SecondaryNameNode

摘要：优质博文：IT-BLOG-CN 一、NN和2NN工作机制思考：NameNode中的元数据是存储在哪里的？首先，我们做个假设，如果存储在 NameNode节点的磁盘中，因为经常需要进行随机访问，还有响应客户请求，必然是效率过低。因此，元数据需要存放在内存中。但如果只存在内存中，一旦断电，元数据丢失，阅读全文

posted @ 2020-11-21 20:00 Java程序员进阶阅读(9) 评论(0) 推荐(0) 编辑

HDFS 读写数据流程

摘要：优质博文：IT-BLOG-CN 一、HDFS 写数据流程 HDFS 文件写入流程图如下：三个模块（客户端、NameNode、DataNode）【1】校验：客户端通过 DistributedFileSystem 模块向 NameNode 请求上传文件，NameNode 会检查目标文件是否已经存在，父阅读全文

posted @ 2020-11-21 19:46 Java程序员进阶阅读(9) 评论(0) 推荐(0) 编辑

YARN 组织架构

摘要：优质博文：IT-BLOG-CN 一、Yarn 概述 Yarn 是一个资源调度平台，负责为运算程序提供服务器运算资源，相当于一个分布式的操作系统平台，而 mapreduce等运算程序则相当于运行于操作系统之上的应用程序。 Yarn 的重要概念：【1】Yarn并不清楚用户提交的程序的运行机制；【2】Ya 阅读全文

posted @ 2020-11-15 00:23 Java程序员进阶阅读(6) 评论(0) 推荐(0) 编辑

YARN 的优化与实践

摘要：优质博文：IT-BLOG-CN 本文从利用率提升、多负载场景优化、稳定性提升、异地多活四个方面介绍了字节跳动在四年来对 Hadoop YARN 进行的一系列的优化，以及生产环境中的实践经验。 YARN 简介 YARN 生态圈 YARN (Yet Another Resource Negotiator 阅读全文

posted @ 2020-11-14 18:30 Java程序员进阶阅读(18) 评论(0) 推荐(0) 编辑

Java程序员进阶

随笔分类 - Hadoop

公告

搜索

我的标签

随笔分类

随笔档案

阅读排行榜

推荐排行榜

最新评论