随笔分类 - 大数据
摘要:# 1. MR 性能优化概述 Hadoop MapReduce 源自于 Google 的 MapReduce 论文,是 Google MapReduce 开源版本实现。MapReduce 是一个分布式应用框架。旨在通过将任务划分来并行处理大量数据,解决海量数据计算问题。 ## 1.1 优缺点及应用场
阅读全文
摘要:# 1. Job 提交源码追踪 ## 1.1 MR 程序入口方法 作为使用 Java 语言编写的 MapReduce 程序,其入口方法为 main 方法。在 main 方法中,使用了 ToolRunner 启动运行了 MapReduce 客户端主类,其逻辑实现定义在 run 方法中。 ```java
阅读全文
摘要:# 1. Counter 计数器 ## 1.1 概述 在执行 MapReduce 程序的时候,控制台输出信息中通常有下面所示片段内容: ``` File System Counters FILE: Number of bytes read=136988 FILE: Number of bytes w
阅读全文
摘要:# 1. MR 基本原理  ## 1.1 MapTask 并行度机制 > **MapTask 的并行度指的是 map
阅读全文
摘要:# 1. MapReduce 概述 MapReduce 是一个分布式运算程序的编程框架,是用户开发“基于 Hadoop 的数据分析应用”的核心框架。 MapReduce 核心功能是将用户编写的业务逻辑代码和自带默认组件整合成一个完整的分布式运算程序,并发运行在一个 Hadoop 集群上。 ## 1.
阅读全文
摘要:# 1. 源码编译 ## 1.1 为什么要编译? **(1)Native Library 本地库** Native Library,一般译为本地库或原生库,是由 C/C++ 编写的动态库(*.so),并通过 JNI 机制为 Java 层提供接口。应用一般会出于性能、安全等角度考虑将相关逻辑用 C/C
阅读全文
摘要:# 1. HDFS Trash ## 1.1 功能概述 **回收站(垃圾桶)**是当前主流操作系统里的一个系统文件夹,主要用来存放用户临时删除的文档资料,存放在回收站的文件可以恢复。 回收站的功能给了我们一剂“后悔药”。回收站保存了删除的文件、文件夹、图片、快捷方式等。这些项目将一直保留在回收站中,
阅读全文
摘要:# 1. HDFS 数据迁移解决方案 数据迁移指的是一种大规模量级的数据转移,转移的过程中往往会跨机房、跨集群 ,数据迁移规模的不同会导致整个数据迁移的周期也不尽相同 。 在 HDFS 中,同样有许多需要数据迁移的场景,比如冷热数据集群之间的数据转化, 或者 HDFS 数据的双机房备份等等。因为涉及
阅读全文
摘要:# 1. 存储格式 ## 1.1 前置说明 Hadoop 上的文件存储格式,肯定不会像 Windows 这么丰富,因为目前我们用 Hadoop 来存储、处理数据。我们不会用 Hadoop 来听歌、看电影或者打游戏。 在 Hadoop 中,没有默认的文件格式,格式的选择取决于其用途。而选择一种优秀、适
阅读全文
摘要:# 1. HDFS Shell CLI https://hadoop.apache.org/docs/r3.1.3/hadoop-project-dist/hadoop-common/FileSystemShell.html ## 1.1 基本概念 命令行界面(英语:command-line int
阅读全文
摘要:# 1. 存储系统  ## 1.1 硬盘 硬盘(Hard Disk Drive)是计算机的主要存储硬件,可以用来存储
阅读全文
摘要:1. 集群配置 1.1 集群部署规划 资源上有抢夺冲突的,尽量不要部署在一起; 工作上需要互相配合的,尽量部署在一起。 \ Hadoop102 Hadoop103 Hadoop104 HDFS NameNode & DataNode DataNode 2rdNameNode & DataNode Y
阅读全文
摘要:# 1. 大数据 ## 1.1 概述 > 指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。 大数据主要解决,海量数据的**采集**、**存储**和**分析计算**问题。 按顺序给出数
阅读全文
