2018年11月4日
摘要: 一、linux简介 01.Linux简介 linux是一种自由和开放源代码的类UNIX操作系统。该操作系统的内核由林纳斯·托瓦兹 在1991年10月5日首次发布。,在加上用户空间的应用程序之后,成为Linux操作系统。 应用:长时间的运行编写的程序代码,可以安装在各种计算机硬件设备中,如: 手机、平板电脑、路由器等 安卓最底层运行在linu... 阅读全文
posted @ 2018-11-04 23:01 末 阅读(648) 评论(0) 推荐(0) 编辑
摘要: 1、mr程序的效率瓶颈 功能:分布式离线计算 计算机性能:CPU、内存、磁盘、网络 I/O操作优化 (1)数据倾斜(代码优化) (2)map和reduce数设置不合理 (3)map运行时间太长,导致reduce等待过久 (4)小文件过多(combineTextInputFomrat小文件合并) (5)不可分块的超大文件(不断的溢写)... 阅读全文
posted @ 2018-11-04 22:59 末 阅读(289) 评论(0) 推荐(0) 编辑
摘要: 一、Hadoop压缩简介 二、Hadoop压缩使用方式 1.Mapper类 2.Reducer类 3.Driver类 4.输入文件words.txt 5.输出文件的名字分别如下 三、自定义压缩工具 1.自定义压缩工具类 2.输入文件名 3.输出文件名 阅读全文
posted @ 2018-11-04 18:21 末 阅读(431) 评论(0) 推荐(0) 编辑
摘要: 一、mapjoin 1.Mapper类 2.Driver类 3.输入文件 4.输出文件part-m-00000 二、reducejoin 1.Mapper类 2.Reducer类 3.封装类 4.Driver类 5.输入文件 6.输出文件part-r-00000 阅读全文
posted @ 2018-11-04 17:59 末 阅读(255) 评论(0) 推荐(0) 编辑
摘要: 一、自定义InputFormat 1.Mapper类 2.Reducer类 3.自定义InputFormat类 4.自定义RecordReader类 5.Driver类 6.输入小文件 7.输出文件part-r-00000 二、自定义OutputFormat 需求:过滤日志文件 把包含main的放在 阅读全文
posted @ 2018-11-04 15:57 末 阅读(1014) 评论(0) 推荐(0) 编辑
摘要: 1.Mapper类 2.Reducer类 3.封装类 4.自定义分区类 5.自定义排序分组类 6.Driver类 7.mr输入文件order.java 8.输出文件 阅读全文
posted @ 2018-11-04 15:13 末 阅读(250) 评论(0) 推荐(0) 编辑