摘要: 一、NameNode & SecondaryNameNode 工作机制 1. 第一阶段:NameNode启动 (1)第一次启动NameNode格式化后,创建Fsimage和Edits文件。如果不是第一次启动,直接加载编辑日志和镜像文件到内存。 (2)客户端对元数据进行增删改的请求。 (3)NameN 阅读全文
posted @ 2020-10-13 21:51 晓枫的春天 阅读(446) 评论(0) 推荐(0) 编辑
摘要: 问题场景 今天有个需求,将 hive 跑完的数据入到 Oracle 里,需求侧直接从 Oracle 表里取数据,不接收文件; 通过下面脚本落到本地文件: [hive@hadoop101 tool]$ more hive_2_file.sh #!/bin/sh path=$1 query=$2 fil 阅读全文
posted @ 2020-10-13 21:16 晓枫的春天 阅读(1746) 评论(0) 推荐(0) 编辑
摘要: 一、HDFS 的写数据操作 客户端通过Distributed FileSystem模块向NameNode请求上传文件,NameNode检查目标文件是否已存在,父目录是否存在。 NameNode返回是否可以上传。 客户端请求第一个 Block上传到哪几个DataNode服务器上。 NameNode返回 阅读全文
posted @ 2020-10-12 22:38 晓枫的春天 阅读(87) 评论(0) 推荐(0) 编辑
摘要: 上面我们学的API操作HDFS系统都是框架封装好的。那么如果我们想自己实现上述API的操作该怎么实现呢?我们可以采用IO流的方式实现数据的上传和下载。 1、上传本地文件到 HDFS ; public static Configuration conf = new Configuration(); / 阅读全文
posted @ 2020-10-12 22:18 晓枫的春天 阅读(121) 评论(0) 推荐(0) 编辑
摘要: 一、环境准备 将事先准备好的 Hadoop jar 文件安装到非中文无空格的路径下: 配置 环境变量 eclipse 创建 maven 项目, pom.xml 引入一下依赖 <dependencies> <dependency> <groupId>junit</groupId> <artifactI 阅读全文
posted @ 2020-10-11 19:18 晓枫的春天 阅读(163) 评论(0) 推荐(0) 编辑
摘要: 下面我们一起学习 HDFS常用 Shell 命令,开始之前,我们启动 HDFS 和 Yarn; [hui@hadoop103 ~]$ /opt/module/hadoop-2.7.2/sbin/start-dfs.sh Starting namenodes on [hadoop103]hadoop1 阅读全文
posted @ 2020-10-11 18:30 晓枫的春天 阅读(278) 评论(0) 推荐(0) 编辑
摘要: 一、HDFS 产生的背景 Hadoop 的三大组成为:HDFS、YARN 和 Map Reduce,今天我们主要探讨 HDFS。 随着数据量的越来越大,在一个操作系统无法存放所有的数据,那么就需要将数据分派到更多的操作系统管理的磁盘中,但是不方便管理和维护,迫切需要一种系统来管理多台机器上的文件,这 阅读全文
posted @ 2020-10-11 15:17 晓枫的春天 阅读(180) 评论(0) 推荐(0) 编辑
摘要: 上面我们介绍了 Hadoop 本地运行模式的搭建,但是实际生产环境均是采用完全分布式模式的,下面我们采用三个节点来搭建完全分布式的 Hadoop 的环境。 一、准备工作: 准备3台客户机(关闭防火墙、静态ip、主机名称) 安装JDK 配置环境变量 安装Hadoop 配置环境变量 配置集群 单点启动 阅读全文
posted @ 2020-10-09 23:20 晓枫的春天 阅读(259) 评论(0) 推荐(0) 编辑
摘要: 上篇文章对Hadoop 作了简单介绍,下面我们来试着在 虚拟机上安装 Hadoop; 一、虚拟机准备 生产环境 Hadoop 集群在 N 个节点上工作,但是今天学习阶段我准备了 1 台虚拟机进行模拟学习本地模式; 我使用的是:VMware Workstation Pro 软件,将事先准备好的虚拟机克 阅读全文
posted @ 2020-10-09 22:49 晓枫的春天 阅读(268) 评论(0) 推荐(0) 编辑
摘要: 一、什么是大数据? 大数据(Big Data) :在一定时间范围内无法通过常规软件进行捕捉,处理和管理的一系列数据集合,大数据主要解决的是海量数据的存储和分析计算问题。 二、大数据特点 大量 多样 高速 低价值密度 三、Hadoop 是什么? 1、Hadoop 狭义上就是 Apache Hadoop 阅读全文
posted @ 2020-10-09 21:26 晓枫的春天 阅读(208) 评论(0) 推荐(0) 编辑