摘要: 一,YARN概述 YARN是一个分布式资源管理平台,负责为运算程序提供服务器的运算资源(cpu资源和内存资源),相当一个分布式的操作系统平台,而MapReduce等运算程序相当于运行于操作系统上的应用程序。 YARN并不清楚用户提供的程序的运行机制,只提供运算资源的调度(用户程序向yarn申请资源, 阅读全文
posted @ 2018-10-17 00:23 薄点 阅读(409) 评论(0) 推荐(0) 编辑
摘要: 这个是由于,window上的txt编辑器用的编码格式和显示的CRT不是同一编码造成的。 解决方式1:更改CRT上面的编码格式。 解决方式2:在linux平台上用iconv命令纠正中文乱码 阅读全文
posted @ 2018-10-16 19:37 薄点 阅读(1140) 评论(0) 推荐(0) 编辑
摘要: MAPREDUCE基本原理 一,概念理解 1,Mapreduce是一个分布式运算程序的编程架构,相对于HDFS来说就是客户端。其核心功能就是将用户编写的业务逻辑代码和自带默认组件整合成一个完整的分布式运算程序,并运行在一个hadoop集群上。 2,基本整体架构:MEAppMaster,MapTask 阅读全文
posted @ 2018-10-15 17:04 薄点 阅读(613) 评论(0) 推荐(0) 编辑
摘要: 1,HDFS命令行在Hadoop客户端的使用: 2,常用的命令行参数介绍 -help 功能:输出这个命令参数手册 -ls 功能:显示目录信息 示例: hadoop fs -ls hdfs://hadoop-server01:9000/ 备注:这些参数中,所有的hdfs路径都可以简写 -->hadoo 阅读全文
posted @ 2018-10-12 21:13 薄点 阅读(936) 评论(0) 推荐(0) 编辑
摘要: HDFS 分布式文件系统 一,基本理解 简单而谈,分布式是分而治之,HDFS也是这个思想,将大量的大文件和大数据,分布式的放在大量的服务器上,以便采用分而治之的方式对海量的数据进行运算分析。所以,它的作用也就是为各类的分布式运算框架(mapreduce,spark等)提供数据存储服务。 其重要的特性 阅读全文
posted @ 2018-10-12 21:02 薄点 阅读(165) 评论(0) 推荐(0) 编辑
摘要: HADOOP学习笔记 一,对Hadoop的基本理解 Hadoop是apache旗下的一套开源的软件平台,主要是利用服务器集群,根据用户的自定义的业务逻辑,对海量数据的分布式处理。 这里讲一下分布式软件系统:软件系统会划分成多个子系统或模块,各自运行在不同的机器上,子系统或模块之间通过网络通信(RPC 阅读全文
posted @ 2018-10-12 00:40 薄点 阅读(126) 评论(0) 推荐(0) 编辑
摘要: 一,服务准备 本案例用Linux虚拟机服务器来搭建HADOOP集群,所用的软件版本: Vmware 11.0 Contos 6.5 64bit 二,JDK环境安装 上传JDK安装包 》解压(tar -zxvf)到指定目录 》配置环境变量 vi /etc/profile 三,网络环境准备 1,将虚拟机 阅读全文
posted @ 2018-10-07 08:24 薄点 阅读(114) 评论(0) 推荐(0) 编辑
摘要: 一,什么是zookeeper? zookeeper 是 Hadoop 的分布式协调服务框架。 它有什么作用呢?它的作用主要是用来维护和监控你存储的数据的状态变化.通过监控这些数据状态的变化,从而可以达到基于数据的集群管理。 一般可分为下面三个作用场景。 作用1 、统一命名服务 作用2 、配置管理 作 阅读全文
posted @ 2018-09-28 10:57 薄点 阅读(86) 评论(0) 推荐(0) 编辑
摘要: 恢复内容开始 一,下载与解压 zookeeper 下载地址 :http://www.apache.org/dyn/closer.cgi/zookeeper/ 下载以后通过SerureCRT的sftp工具解压上传到指定的虚拟机文件目录的地址下 上传完毕以后可以在指定的目录下解压 这里复制粘贴CRT右键 阅读全文
posted @ 2018-09-25 23:43 薄点 阅读(418) 评论(0) 推荐(0) 编辑