hadoop - 随笔分类 - 张冲andy

hadoop之参数调优

摘要：一、 hdfs-site.xml 配置文件 1、 dfs.blocksize 参数：hadoop文件块大小描述：新文件的默认块大小，以字节为单位，默认 134217728 字节。可以使用以下后缀(大小写不敏感):k(kilo)、m(mega)、g(giga)、t(tera)、p(peta)、e(ex 阅读全文

posted @ 2018-02-24 10:17 张冲andy 阅读(872) 评论(0) 推荐(0) 编辑

hadoop之 Yarn 调度器Scheduler详解

摘要：概述集群资源是非常有限的，在多用户、多任务环境下，需要有一个协调者，来保证在有限资源或业务约束下有序调度任务，YARN资源调度器就是这个协调者。 YARN调度器有多种实现，自带的调度器为Capacity Scheduler和Fair Scheduler。YARN资源调度器均实现Resource S 阅读全文

posted @ 2018-02-05 15:29 张冲andy 阅读(843) 评论(0) 推荐(0) 编辑

Hadoop之 MapReducer工作过程

摘要：一个MapReducer作业经过了input，map，combine，reduce，output五个阶段，其中combine阶段并不一定发生，map输出的中间结果被分到reduce的过程成为shuffle（数据清洗）。在shuffle阶段还会发生copy（复制）和sort（排序）。在MapRed 阅读全文

posted @ 2018-02-05 11:40 张冲andy 阅读(1465) 评论(0) 推荐(0) 编辑

hadoop 配置文件简析

摘要：文件名称格式描述hadoop-env.sh bash脚本记录hadoop要用的环境变量core-site.xml hadoop 配置 xml hadoop core 配置项，例如 HDFS 和 Mapreduce 常用的i/o 设置等hdfs-site.xml hadoop 配置 xml HD 阅读全文

posted @ 2018-02-05 10:23 张冲andy 阅读(169) 评论(0) 推荐(0) 编辑

hadoop之 reduce个数控制

摘要：1、参数变更1.x 参数名 2.x 参数名 mapred.tasktracker.reduce.tasks.maximum mapreduce.tasktracker.reduce.tasks.maximummapred.reduce.tasks mapreduce.job.reduces 2、参数阅读全文

posted @ 2018-02-03 20:02 张冲andy 阅读(869) 评论(0) 推荐(0) 编辑

hadoop之 map个数控制

摘要：hadooop提供了一个设置map个数的参数mapred.map.tasks，我们可以通过这个参数来控制map的个数。但是通过这种方式设置map的个数，并不是每次都有效的。原因是mapred.map.tasks只是一个hadoop的参考数值，最终map的个数，还取决于其他的因素。为了方便介绍，先来阅读全文

posted @ 2018-02-03 17:06 张冲andy 阅读(2217) 评论(0) 推荐(0) 编辑

hadoop之心跳时间与冗余快清除

摘要：1.Hadoop datanode节点超时时间设置 datanode进程死亡或者网络故障造成datanode无法与namenode通信，namenode不会立即把该节点判定为死亡，要经过一段时间，这段时间暂称作超时时长。HDFS默认的超时时长为10分钟+30秒。如果定义超时时间为timeout，则超阅读全文

posted @ 2018-01-31 19:47 张冲andy 阅读(665) 评论(0) 推荐(0) 编辑

PIG之 Hadoop 2.7.4 + pig-0.17.0 安装

摘要：首先: 参考 http://blog.csdn.net/zhang123456456/article/details/77621487 搭建好hadoop集群。然后，在master节点安装pig。我们用MapReduce进行数据分析。当业务比较复杂的时候，使用MapReduce将会是一个很复杂的阅读全文

posted @ 2018-01-28 21:18 张冲andy 阅读(349) 评论(0) 推荐(0) 编辑

hadoop之 hadoop 2.2.X 弃用的配置属性名称及其替换名称对照表

摘要：Deprecated Properties 弃用属性 The following table lists the configuration property names that are deprecated in this version of Hadoop, and their replace 阅读全文

posted @ 2017-10-18 23:15 张冲andy 阅读(737) 评论(0) 推荐(0) 编辑

hadoop YARN配置参数剖析—MapReduce相关参数

摘要：MapReduce相关配置参数分为两部分，分别是JobHistory Server和应用程序参数，Job History可运行在一个独立节点上，而应用程序参数则可存放在mapred-site.xml中作为默认参数，也可以在提交应用程序时单独指定，注意，如果用户指定了参数，将覆盖掉默认参数。以下这些阅读全文

posted @ 2017-10-18 23:06 张冲andy 阅读(1078) 评论(0) 推荐(0) 编辑

hadoop之 YARN配置参数剖析—RM与NM相关参数

摘要：参数均需要在yarn-site.xml中配置： 1. ResourceManager相关配置参数（1） yarn.resourcemanager.address 参数解释：ResourceManager 对客户端暴露的地址。客户端通过该地址向RM提交应用程序，杀死应用程序等。默认值：${yarn 阅读全文

posted @ 2017-10-18 22:33 张冲andy 阅读(669) 评论(0) 推荐(0) 编辑

java之 JVM 内存管理详解

摘要：一、JVM结构根据《java虚拟机规范》规定，JVM的基本结构一般如下图所示：从左图可知，JVM主要包括四个部分： 1.类加载器（ClassLoader）:在JVM启动时或者在类运行时将需要的class加载到JVM中。（右图表示了从java源文件到JVM的整个过程，可配合理解。关于类的加载机制阅读全文

posted @ 2017-10-17 17:52 张冲andy 阅读(445) 评论(0) 推荐(0) 编辑

hadoop之 Hadoop 2.x HA 、Federation

摘要：HDFS2.0之HA 主备NameNode： 1、主NameNode对外提供服务，备NameNode同步主NameNode元数据，以待切换； 2、主NameNode的信息发生变化后，会将信息写到共享数据存储系统中让备NameNode合并到自己的内存中； 3、所有DataNode同时向两个NameNo 阅读全文

posted @ 2017-10-16 22:28 张冲andy 阅读(596) 评论(0) 推荐(0) 编辑

hadoop之 Hadoop1.x和Hadoop2.x构成对比

摘要：Hadoop1.x构成： HDFS、MapReduce(资源管理和任务调度)；运行时环境为JobTracker和TaskTracker； Hadoop2.0构成：HDFS、MapReduce/其他计算框架、YARN；运行时环境为YARN 1、HDFS：HA、NameNode Federation 阅读全文

posted @ 2017-10-16 22:15 张冲andy 阅读(1162) 评论(0) 推荐(0) 编辑

hadoop之 hadoop日志存放路径

摘要：环境：[root@hadp-master hadoop-2.7.4]# hadoop versionHadoop 2.7.4 Hadoop的日志大致可以分为两类：（1）、Hadoop系统服务输出的日志；（2）、Mapreduce程序输出来的日志。这两类的日志存放的路径是不一样的。本文基于Hado 阅读全文

posted @ 2017-10-16 20:35 张冲andy 阅读(2691) 评论(0) 推荐(0) 编辑

hadoop之 hadoop 机架感知

摘要：1.背景 Hadoop在设计时考虑到数据的安全与高效，数据文件默认在HDFS上存放三份，存储策略为本地一份，同机架内其它某一节点上一份，不同机架的某一节点上一份。这样如果本地数据损坏，节点可以从同一机架内的相邻节点拿到数据，速度肯定比从跨机架节点上拿数据要快；同时，如果整个机架的网络出现异常，也能保阅读全文

posted @ 2017-10-13 10:59 张冲andy 阅读(270) 评论(0) 推荐(0) 编辑

Hive之 hive-1.2.1 + hadoop 2.7.4 集群安装

摘要：一、相关概念 Hive Metastore有三种配置方式，分别是： Embedded Metastore Database (Derby) 内嵌模式Local Metastore Server 本地元存储Remote Metastore Server 远程元存储1.1 Metadata、Metas 阅读全文

posted @ 2017-09-17 20:25 张冲andy 阅读(1872) 评论(0) 推荐(0) 编辑

hadoop之 HDFS-Hadoop存档

摘要：每个文件按块方式存储, 每个块的元数据存储在namenode的内存中 Hadoop存档文件或HAR文件是一个更高效的文件存档工具,它将文件存入HDFS块,在减少内存使用的同时,允许对文件进行透明地访问 Hadoop存档文件可以用作MapReduce的输入使用Hadoop存档工具 Hadoop存档是阅读全文

posted @ 2017-09-07 17:53 张冲andy 阅读(294) 评论(0) 推荐(0) 编辑

hadoop之 distcp（分布式拷贝）

摘要：概述 distcp（分布式拷贝）是用于大规模集群内部和集群之间拷贝的工具。它使用Map/Reduce实现文件分发，错误处理和恢复，以及报告生成。它把文件和目录的列表作为map任务的输入，每个任务会完成源列表中部分文件的拷贝。由于使用了Map/Reduce方法，这个工具在语义和执行上都会有特殊的阅读全文

posted @ 2017-09-07 16:51 张冲andy 阅读(31541) 评论(0) 推荐(1) 编辑

hadoop之解析HDFS的写文件流程

摘要：文件是如何写入HDFS的？下面我们来先看看下面的“写”流程图：假如我们有一个文件test.txt，想要把它放到Hadoop上，执行如下命令：引用 # hadoop fs -put /usr/bigdata/dataset/input/20130706/test.txt /opt/bigdat 阅读全文

posted @ 2017-09-07 16:07 张冲andy 阅读(624) 评论(0) 推荐(0) 编辑

张冲andy

随笔分类 - hadoop