摘要:
MapReduce定义 Map Reduce 是一个分布式运算程序的编程框架,是用户开发“基于 Hadoop 的数据分析” 应用的核心框架 ,Map Reduce 的核心功能是将用户编写的业务逻辑代码和自带的默认组件,整合成完整的分布式应用程序,并发运行在 Hadoop 集群上。 为什么要引入 Ma 阅读全文
摘要:
问题场景:最近在学习 MapReduce,今天在 Win10 系统练习 WordCount 案例,启动 Driver 程序报错: 2020-10-14 22:15:44,142 WARN [org.apache.hadoop.util.NativeCodeLoader] - Unable to lo 阅读全文
摘要:
一、集群安全模式 概述 语法: 集群处于安全模式,不能执行重要操作(写操作)。集群启动完成后,自动退出安全模式。 (1)bin/hdfs dfsadmin -safemode get (功能描述:查看安全模式状态) (2)bin/hdfs dfsadmin -safemode enter (功能描述 阅读全文
摘要:
一、NameNode & SecondaryNameNode 工作机制 1. 第一阶段:NameNode启动 (1)第一次启动NameNode格式化后,创建Fsimage和Edits文件。如果不是第一次启动,直接加载编辑日志和镜像文件到内存。 (2)客户端对元数据进行增删改的请求。 (3)NameN 阅读全文
摘要:
问题场景 今天有个需求,将 hive 跑完的数据入到 Oracle 里,需求侧直接从 Oracle 表里取数据,不接收文件; 通过下面脚本落到本地文件: [hive@hadoop101 tool]$ more hive_2_file.sh #!/bin/sh path=$1 query=$2 fil 阅读全文
摘要:
一、HDFS 的写数据操作 客户端通过Distributed FileSystem模块向NameNode请求上传文件,NameNode检查目标文件是否已存在,父目录是否存在。 NameNode返回是否可以上传。 客户端请求第一个 Block上传到哪几个DataNode服务器上。 NameNode返回 阅读全文
摘要:
上面我们学的API操作HDFS系统都是框架封装好的。那么如果我们想自己实现上述API的操作该怎么实现呢?我们可以采用IO流的方式实现数据的上传和下载。 1、上传本地文件到 HDFS ; public static Configuration conf = new Configuration(); / 阅读全文
摘要:
一、环境准备 将事先准备好的 Hadoop jar 文件安装到非中文无空格的路径下: 配置 环境变量 eclipse 创建 maven 项目, pom.xml 引入一下依赖 <dependencies> <dependency> <groupId>junit</groupId> <artifactI 阅读全文
摘要:
下面我们一起学习 HDFS常用 Shell 命令,开始之前,我们启动 HDFS 和 Yarn; [hui@hadoop103 ~]$ /opt/module/hadoop-2.7.2/sbin/start-dfs.sh Starting namenodes on [hadoop103]hadoop1 阅读全文
摘要:
一、HDFS 产生的背景 Hadoop 的三大组成为:HDFS、YARN 和 Map Reduce,今天我们主要探讨 HDFS。 随着数据量的越来越大,在一个操作系统无法存放所有的数据,那么就需要将数据分派到更多的操作系统管理的磁盘中,但是不方便管理和维护,迫切需要一种系统来管理多台机器上的文件,这 阅读全文