01 2020 档案
摘要:1.1.1 Stream 作业 (1)hadoop streaming Hadoop streaming是hadoop的一个工具,用于运行费java的maper或reducer作业,例如maper和reducer是C++编写的可执行程序或者脚本文件。同时也可以是java类。 HADOOP_HOME/
阅读全文
摘要:1.1.1 默认的map函数和reduce函数 (1)Maper和Reuducer默认类 如果没有指定maper类和reduce类,则会用默认的Maper和Reuducer类去处理数据。也可以显示的将处理类设置为Maper和Reducer类。默认的Maper类和reduce类是将输入原封不动的输出。
阅读全文
摘要:1.1 Mapreduce输入输出类型 (1)map和reduce输入输出类型一致性 Map输入输出类型可以不用,但是map的输出和reduce的输入类型要一致,reduce的输入输出也可不一样。 Map(K1,V1)àlist(K2,V2) Reduce (K2,list(V2))->list(K
阅读全文
摘要:1.1 任务的执行 1.1.1 任务执行环境 Map和reduce的任务会有一些属性,创建任务时传入,可以通过任务的函数(旧版configure()函数)或者对象方法获取这些属性。 1.1.2 推测执行 一个作业被分解为多个任务,并发的执行多个任务,提高速度,但是如果某个任务执行的慢就会拖后腿,所以
阅读全文
摘要:1.1 Shuffle和排序 Shuffle:系统执行排序,将map输出作为输入传给reduce的过程称为shuffle。 1.1.1 Map端缓存排序输出 (1) 写入缓冲区:map输出结果先输出到内存缓冲区(默认100M,通过属性mapreduce.Task.io.sort.mb设置) (2)
阅读全文
摘要:注册表的操作 1.注册表的作用 注册表是windows系统的数据库,保存了系统、用户、程序的信息,通过修改注册表可以对系统进行设置,可以获取程序信息、用户信息等,可以修改环境变量,可以设置程序开机自启动,修改主页,取消运行、重启、关机、注销按钮等。只要你知道注册表中对应键和键值的功能了解,就可以通过
阅读全文
摘要:Linux快速开发 1 Makefile编写... 1 1.1 实例解析... 1 1.1.1 makefile文件... 1 1.1.2 包含的makefile.global 3 1.2 使用makefile文件... 5 2 Linux编译... 5 2.1 Linux编译步骤... 5 3 L
阅读全文
摘要:1.1.1 配置调优 通过调节配置参数,达到较优的性能。Map配置参数 属性 类型 默认值 作用 mapreduce.Task.io.sort.mb Int 100 Map输出结果的缓冲区大小兆为单位 mapreduce.map.sort.spill.percent Float 80 缓冲区占用比例
阅读全文
摘要:1.1 失败 1.1.1 任务失败 Map和reduce任务失败:Map或者reduce任务有缺陷,抛出异常,JVM会会向applicationmaster 发出错误报告,applicationmaster将任务标记为failed,将错误报告写入用户日志,释放资源。 Stream任务失败:Strea
阅读全文
摘要:1.1 Mapreduce任务流程 Mapreduce是大量数据并发处理的编程模型,主要包括下面五个实体,客户端将作业文件复制到分布式文件系统,向资源管理器提交mapreduce作业,资源管理器向节点管理器分配容器资源,节点管理器启动application Master,application ma
阅读全文
摘要:1.1 Mapreduce作业流JobControl和Oozie 更复杂的任务,需要多个mapreduce作业,形成作业流,而不是增加map和reduce的复杂度。复杂问题,可以用高级语言pig、hive、cascading、crunch、spark。 1.1.1 问题分解成mapreduce作业流
阅读全文
摘要:提高速度和性能。可以从下面几个点去优化 可以在本地运行调试来优化性能,但是本地和集群是完全不同的环境,数据流模式也截然不同,性能优化要在集群上测试。有些问题如(内存溢出)只能在集群上重现。 HPROF任务分析工具,使用下面命令启动jdk自带的分析工具,提供CPU和堆栈使用情况。 % hadoop j
阅读全文
摘要:1.1 集群运行 1.1.1 集群运行步骤 (1)打包 打作业jar包发送给集群,hadoop通过搜索驱动程序的类路径(驱动程序中通过setJarByClass设置)自动查找作业的的jar文件,打包命令: mvn package –DskipTests //–DskipTests 跳过测试的意思 (
阅读全文