摘要: MapReduce教程(一)基于MapReduce框架开发 1 MapReduce编程 1.1 MapReduce简介MapReduce是一种编程模型,用于大规模数据集(大于1TB)的并行运算,用于解决海量数据的计算问题。 MapReduce分成了两个部分: 1、映射(Mapping)对集合里的每个 阅读全文
posted @ 2021-03-12 19:49 GoodGad 阅读(403) 评论(0) 推荐(0) 编辑
摘要: Hadoop教程(三)HDFS文件系统Shell命令 1 Hadoop- Shell命令HDFS是存取数据的分布式文件系统,那么对HDFS的操作,就是文件系统的基本操作,比如文件的创建、修改、删除、修改权限等,文件夹的创建、删除、重命名等。对HDFS的操作命令类似于Linux的shell对文件的操作 阅读全文
posted @ 2021-03-12 19:47 GoodGad 阅读(687) 评论(0) 推荐(0) 编辑
摘要: Hadoop分布式集群部署安装在hadoop2.0中通常由两个NameNode组成,一个处于active状态,另一个处于standby状态。Active NameNode对外提供服务,而Standby NameNode则不对外提供服务,仅同步activenamenode的状态,以便能够在它失败时快速 阅读全文
posted @ 2021-03-12 19:46 GoodGad 阅读(270) 评论(0) 推荐(0) 编辑
摘要: Hadoop教程(四)HDFS文件系统JavaAPI接口 HDFS是存取数据的分布式文件系统,HDFS文件操作常有两种方式,一种是命令行方式,即Hadoop提供了一套与Linux文件命令类似的命令行工具。另一种是JavaAPI,即利用Hadoop的Java库,采用编程的方式操作HDFS的文件。 1 阅读全文
posted @ 2021-03-12 19:38 GoodGad 阅读(534) 评论(0) 推荐(0) 编辑
摘要: Hadoop教程(二)Hadoop伪集群环境安装 1 Hadoop伪分布式安装 1.1 相关下载1、JDK下载地址:jdk-8u66-linux-x64.tar.gz Linux安装JDK及环境变量配置,参见:http://blog.csdn.net/yuan_xw/article/details/ 阅读全文
posted @ 2021-03-12 19:34 GoodGad 阅读(108) 评论(0) 推荐(0) 编辑
摘要: 1 Hadoop入门教程Hadoop是Apache开源组织的一个分布式计算开源框架(http://hadoop.apache.org/),用java语言实现开源软件框架,实现在大量计算机组成的集群中对海量数据进行分布式计算。Hadoop框架中最核心设计就是:HDFS和MapReduce,HDFS实现 阅读全文
posted @ 2021-03-12 19:31 GoodGad 阅读(398) 评论(0) 推荐(0) 编辑
Live2D