随笔分类 - Hadoop
摘要:上面我们学的API操作HDFS系统都是框架封装好的。那么如果我们想自己实现上述API的操作该怎么实现呢?我们可以采用IO流的方式实现数据的上传和下载。 1、上传本地文件到 HDFS ; public static Configuration conf = new Configuration(); /
阅读全文
摘要:一、环境准备 将事先准备好的 Hadoop jar 文件安装到非中文无空格的路径下: 配置 环境变量 eclipse 创建 maven 项目, pom.xml 引入一下依赖 <dependencies> <dependency> <groupId>junit</groupId> <artifactI
阅读全文
摘要:下面我们一起学习 HDFS常用 Shell 命令,开始之前,我们启动 HDFS 和 Yarn; [hui@hadoop103 ~]$ /opt/module/hadoop-2.7.2/sbin/start-dfs.sh Starting namenodes on [hadoop103]hadoop1
阅读全文
摘要:一、HDFS 产生的背景 Hadoop 的三大组成为:HDFS、YARN 和 Map Reduce,今天我们主要探讨 HDFS。 随着数据量的越来越大,在一个操作系统无法存放所有的数据,那么就需要将数据分派到更多的操作系统管理的磁盘中,但是不方便管理和维护,迫切需要一种系统来管理多台机器上的文件,这
阅读全文
摘要:上面我们介绍了 Hadoop 本地运行模式的搭建,但是实际生产环境均是采用完全分布式模式的,下面我们采用三个节点来搭建完全分布式的 Hadoop 的环境。 一、准备工作: 准备3台客户机(关闭防火墙、静态ip、主机名称) 安装JDK 配置环境变量 安装Hadoop 配置环境变量 配置集群 单点启动
阅读全文
摘要:上篇文章对Hadoop 作了简单介绍,下面我们来试着在 虚拟机上安装 Hadoop; 一、虚拟机准备 生产环境 Hadoop 集群在 N 个节点上工作,但是今天学习阶段我准备了 1 台虚拟机进行模拟学习本地模式; 我使用的是:VMware Workstation Pro 软件,将事先准备好的虚拟机克
阅读全文
摘要:一、什么是大数据? 大数据(Big Data) :在一定时间范围内无法通过常规软件进行捕捉,处理和管理的一系列数据集合,大数据主要解决的是海量数据的存储和分析计算问题。 二、大数据特点 大量 多样 高速 低价值密度 三、Hadoop 是什么? 1、Hadoop 狭义上就是 Apache Hadoop
阅读全文