上一页 1 ··· 10 11 12 13 14 15 16 17 18 ··· 71 下一页

2018年2月25日

spark之 spark 2.2.0 Standalone安装、wordCount演示

摘要: 说明:前提安装好hadoop集群,可参考 http://blog.csdn.net/zhang123456456/article/details/77621487 一、 scala 安装 1、下载 scala 安装包 :https://d3kbcqa49mib13.cloudfront.net/sp 阅读全文

posted @ 2018-02-25 11:08 张冲andy 阅读(327) 评论(0) 推荐(0) 编辑

2018年2月24日

hadoop之 参数调优

摘要: 一、 hdfs-site.xml 配置文件 1、 dfs.blocksize 参数:hadoop文件块大小描述:新文件的默认块大小,以字节为单位,默认 134217728 字节。可以使用以下后缀(大小写不敏感):k(kilo)、m(mega)、g(giga)、t(tera)、p(peta)、e(ex 阅读全文

posted @ 2018-02-24 10:17 张冲andy 阅读(871) 评论(0) 推荐(0) 编辑

2018年2月5日

hadoop之 Yarn 调度器Scheduler详解

摘要: 概述 集群资源是非常有限的,在多用户、多任务环境下,需要有一个协调者,来保证在有限资源或业务约束下有序调度任务,YARN资源调度器就是这个协调者。 YARN调度器有多种实现,自带的调度器为Capacity Scheduler和Fair Scheduler。YARN资源调度器均实现Resource S 阅读全文

posted @ 2018-02-05 15:29 张冲andy 阅读(843) 评论(0) 推荐(0) 编辑

Hadoop之 MapReducer工作过程

摘要: 一个MapReducer作业经过了input,map,combine,reduce,output五个阶段,其中combine阶段并不一定发生,map输出的中间结果被分到reduce的过程成为shuffle(数据清洗)。 在shuffle阶段还会发生copy(复制)和sort(排序)。 在MapRed 阅读全文

posted @ 2018-02-05 11:40 张冲andy 阅读(1465) 评论(0) 推荐(0) 编辑

hadoop 配置文件简析

摘要: 文件名称 格式 描述hadoop-env.sh bash脚本 记录hadoop要用的环境变量core-site.xml hadoop 配置 xml hadoop core 配置项,例如 HDFS 和 Mapreduce 常用的i/o 设置等hdfs-site.xml hadoop 配置 xml HD 阅读全文

posted @ 2018-02-05 10:23 张冲andy 阅读(169) 评论(0) 推荐(0) 编辑

2018年2月3日

hadoop之 reduce个数控制

摘要: 1、参数变更1.x 参数名 2.x 参数名 mapred.tasktracker.reduce.tasks.maximum mapreduce.tasktracker.reduce.tasks.maximummapred.reduce.tasks mapreduce.job.reduces 2、参数 阅读全文

posted @ 2018-02-03 20:02 张冲andy 阅读(869) 评论(0) 推荐(0) 编辑

hadoop之 map个数控制

摘要: hadooop提供了一个设置map个数的参数mapred.map.tasks,我们可以通过这个参数来控制map的个数。但是通过这种方式设置map的个数,并不是每次都有效的。原因是mapred.map.tasks只是一个hadoop的参考数值,最终map的个数,还取决于其他的因素。 为了方便介绍,先来 阅读全文

posted @ 2018-02-03 17:06 张冲andy 阅读(2210) 评论(0) 推荐(0) 编辑

2018年2月1日

hadoop之 exceeds the limit of concurrent xcievers处理

摘要: dfs.datanode.max.transfer.threads: 默认 4096 < 2.0之前该参数为dfs.datanode.max.xcievers >解释:Specifies the maximum number of threads to use for transferring da 阅读全文

posted @ 2018-02-01 11:36 张冲andy 阅读(729) 评论(0) 推荐(0) 编辑

Hadoop之 Balancer平衡速度

摘要: 1. dfs.datanode.max.transfer.threads 修改dfs.datanode.max.transfer.threads=4096 (如果运行HBase的话建议为16384),指定用于在DataNode间传输block数据的最大线程数,老版本的对应参数为dfs.datanod 阅读全文

posted @ 2018-02-01 10:37 张冲andy 阅读(1137) 评论(0) 推荐(0) 编辑

2018年1月31日

hadoop之 心跳时间与冗余快清除

摘要: 1.Hadoop datanode节点超时时间设置 datanode进程死亡或者网络故障造成datanode无法与namenode通信,namenode不会立即把该节点判定为死亡,要经过一段时间,这段时间暂称作超时时长。HDFS默认的超时时长为10分钟+30秒。如果定义超时时间为timeout,则超 阅读全文

posted @ 2018-01-31 19:47 张冲andy 阅读(664) 评论(0) 推荐(0) 编辑

上一页 1 ··· 10 11 12 13 14 15 16 17 18 ··· 71 下一页

导航