11 2018 档案
摘要:解读WordCount WordCount程序就是MapReduce的HelloWord程序。通过对WordCount程序分析,我们可以了解MapReduce程序的基本结构和执行过程。 WordCount设计思路WordCount程序很好的体现了MapReduce编程思想。一般来说,文本作为MapR
阅读全文
摘要:YARN:资源调度平台 YARN的调度器 可以这样理解,Hadoop相当于一台虚拟计算机(由多台计算机构造的集群),那么HDFS就是这台虚拟计算机的文件系统,管理磁盘资源;而YARN负责管理虚拟计算机的CPU和内存资源。在YARN上跑的MapReduce程序(上一节跑的PI和wordcount两个应
阅读全文
摘要:MapReduce介绍本节将介绍Hadoop的分布式计算框架:MapReduce。 MapReduce来历MapReduce最早来源于谷歌公司的一篇学术论文,是由Google公司研究提出的一种面向大规模数据处理的并行计算模型和方法,当时主要是为了解决其搜索引擎中大规模网页数据的并行化处理。但由于Ma
阅读全文
摘要:yarn命令的用法 classpath 使用: yarn classpath 打印需要得到Hadoop的jar和所需要的lib包路径 查看节点列表 查看节点状况 先停止YARN,然后通过yarn命令来启动resourcemanager和nodemanager JPS命令,已经没有YARN的相关服务了
阅读全文
摘要:YARN:资源调度平台 YARN集群运行 HDFS已经启动 [root@node1 hadoop]# scp yarn-site.xml node2:/opt/hadoop-2.7.3/etc/hadoop/ yarn-site.xml 100% 3496 282.5KB/s 00:00 [root
阅读全文
摘要:YARN:资源调度平台 YARN集群配置 简单配置 yarn-site.xml mapred-site.xml slave 需要注意:这个文件是指定子节点的位置,同时也是帮助Yarn指定NodeManager启动的位置。即如果HDFS没有指定slaves的话,将没有DataNode;如果Yarn没有
阅读全文
摘要:YARN:资源调度平台 YARN参数解读与调优 yarn-site.xml文件默认参数: http://hadoop.apache.org/docs/r2.7.3/hadoop-yarn/hadoop-yarn-common/yarn-default.xml capacity.CapacitySch
阅读全文
摘要:YARN介绍 YARN的全称是Yet Another Resource Negotiator,意为另一种资源调度者。 从Apache Hadoop 2.0开始, Hadoop包含 YARN。 Hadoop 1.x与Hadoop 2.x (1)MRv1 在介绍Yarn之前,我们先回头看一下Hadoop
阅读全文
摘要:HDFS的Java API Java API封装类 执行main方法前 执行main方法后 修改主方法
阅读全文
摘要:HDFS的Java API Java API应用 上传文件 先在本地(客户端)一个文件,比如在D盘下新建一个word2.txt文件,内容随便写 在IDEA中编写Java程序 再次说明,String dest="hdfs://192.168.80.128:9000/user/root/input/wo
阅读全文
摘要:HDFS的Java API Java API介绍 将详细介绍HDFS Java API,一下节再演示更多应用。 Java API 官网 Hadoop 2.7.3 Java API官方地址 http://hadoop.apache.org/docs/r2.7.3/api/index.html 如上图所
阅读全文
摘要:数据准备 通过HDFS 命令方式将本地words.txt文件上传到HDFS上 首先使用hdfs 来创建input文件夹 目录结构 点击打开pom.xml添加 编辑Java代码 在HdfsTest.java类中编辑代码如下: 程序说明: Configuration类:该类的对象封转了客户端或者服务器的
阅读全文
摘要:HDFS:分布式文件系统 HDFS参数解读 官方文档 Hadoop官方文档地址: http://hadoop.apache.org/docs/r2.7.3/ 由于Hadoop相关参数页面需要通过FireFox浏览器打开,这里需要你先安装FireFox浏览器。 下拉页面,可以在页面左下角找到“Conf
阅读全文
摘要:HDFS:分布式文件系统 HDFS集群模式 Hadoop环境变量 同理在node2和node3也要进行类似的环境变量配置。 准备工作 由于前面在node1上部署了Hadoop单机模式,需要停止Hadoop所有服务并清除数据目录。顺便检验一下设置的Hadoop环境变量。 清除Hadoop数据目录 co
阅读全文
摘要:HDFS:分布式文件系统 HDFS文件读写 文件访问权限 针对文件和目录,HDFS有与POSIX非常相似的权限模式。一共提供三类权限模式:只读权限(r)、写入权限(w)和可执行权限(x)。读取文件或列出目录内容时需要只读权限。写入一个文件,或是在一个目录上创建及删除文件或目录,需要写入权限。对于文件
阅读全文
摘要:HDFS:分布式文件系统 HDFS概述 在大数据时代,需要处理分析的数据集的大小已经远远超过了单台计算机的存储能力,需要将数据集进行分区(partition)并存储到若干台独立自治计算机中。但是分区存储的数据不方便管理和维护,迫切需要一种文件系统来管理多台机器上的文件,这就是分布式文件系统(dist
阅读全文
摘要:一般由于多次格式化NameNode导致。在配置文件中保存的是第一次格式化时保存的namenode的ID,因此就会造成datanode与namenode之间的id不一致。 查看从节点机器hadoop中datanode的log文件 , 拉到最后 , 报错如下 然后找到datanode日志文件打开 如图,
阅读全文
摘要:Hadoop快速入门 WordContent简单应用 Hadoop的HelloWorld程序 创建HDFS目录 hdfs命令位于bin目录下,通过hdfs dfs -mkdir命令可以创建一个目录。 dfs创建的目录默认会放到/user/{username}/目录下面,其中{username}是当前
阅读全文
摘要:Hadoop快速入门 Hadoop单机运行 衔接上一章节,首先切换到Hadoop根目录 namenode格式化 执行bin/hadoop namenode -format命令,进行namenode格式化 在执行结果中可以找到has been successfully formatted,说明name
阅读全文
摘要:Hadoop快速入门 常见的Hadoop部署模式分为单机模式和集群模式,也称为伪分布式模式和分布式模式。 单机模式(伪分布式)模式是在一个节点上部署所有的Hadoop服务。在使用上,单机模式(伪分布式)模式跟集群模式(分布式模式)是一样的。 Hadoop单机配置 2.3节到2.5节内容参考官方文档:
阅读全文
摘要:Hadoop下载与安装 官网下载 打开Apache Hadoop官方网址http://hadoop.apache.org/ The requested file or directory is not on the mirrors. It may be in our archive : http:/
阅读全文
摘要:Hadoop快速入门 Hadoop简介 Hadoop编年史 (1)2002年10月,Doug Cutting和Mike Cafarella创建了开源网页爬虫项目Nutch。(2)2003 年 Google 发表了一篇技术学术论文关于 Google 文件系统(GFS)。GFS 也就是 Google F
阅读全文
摘要:环境安装配置 目录规划 总体规划 软件安装目录:/opt 数据目录:/var/data 日志目录:/var/log hadoop相关目录按照上面规划,hadoop相关目录如下:软件安装目录:/opt/hadoop2.7数据目录:/var/data/hadoop /var/data/hadoop/na
阅读全文
摘要:环境安装配置 构建集群 集群概念 什么是集群 集群(cluster)就是一组计算机,它们作为一个整体向用户提供一组网络资源,这些单个的计算机系统就是集群的节点(node)。集群提供了以下关键的特性。 (一) 可扩展性。集群的性能不限于单一的服务实体,新的服务实体可以动态的加入到集群,从而增强集群的性
阅读全文
摘要:环境安装配置 CentOS 基本配置 1、修改hosts vi /etc/hosts 修改主机名 永久修改主机名(需要重启) vi /etc/hostname 首先删除主机名默认值localhost.localdomain,然后修改为node1 这是只要重新打开一个CRT即可看到修改的临时主机名 C
阅读全文
摘要:安装Linux虚拟机 选择Ubuntu还是CentOS Ubuntu适合桌面环境,CentOS适合服务器环境 下载CentOS 打开CentOS官网,进入下载页面https://www.centos.org/download/ DVD ISO:可以刻录一张普通DVD光盘。 Everything IS
阅读全文
摘要:Hadoop是什么? Hadoop是使用Java编写,允许分布在集群,使用简单的编程模型的计算机大型数据集处理的Apache的开源框架。 Hadoop框架应用工程提供跨计算机集群的分布式存储和计算的环境。 Hadoop是专为从单一服务器到上千台机器扩展,每个机器都可以提供本地计算和存储。 Hadoo
阅读全文
摘要:整合过程 整合思路 1. 创建新的java Project 2. 导入整合所需要的jar包(包括mybatis、spring、整合jar、数据库连接等),下载点击这里。 3. 建立配置文件,包括spring和mybatis的核心配置文件,log4j日志文件。 4. 把逆向工程生成的类和映射文件拷贝进
阅读全文
摘要:一, 前一篇博客中,介绍了一下Mybatis和hibernate的对比,在这一篇博客说说mybatis的逆向工程,展示一下,只要有一个数据库,你的持久层,你的D层从此不用你自己手写了。 二、什么是逆向工程? mybaits需要程序员自己编写sql语句,mybatis官方提供逆向工程 可以针对单表自动
阅读全文

浙公网安备 33010602011771号