返回顶部 Fork me on GitHub
上一页 1 ··· 6 7 8 9 10 11 12 13 下一页
摘要: 流量汇总程序案例 1.自定义输出 统计手机号耗费的总上行流量、下行流量、总流量(序列化) 1)需求: 统计每一个手机号耗费的总上行流量、下行流量、总流量 2)数据准备 phone_date.txt 输入数据格式: 输出数据格式 3)分析 基本思路: Map阶段: (1)读取一行数据,切分字段 (2) 阅读全文
posted @ 2018-06-02 12:55 Frankdeng 阅读(4833) 评论(0) 推荐(0) 编辑
摘要: 辅助排序和二次排序案例(GroupingComparator) 1.需求 有如下订单数据 订单id 商品id 成交金额 0000001 Pdt_01 222.8 0000001 Pdt_05 25.8 0000002 Pdt_03 522.8 0000002 Pdt_04 122.4 0000002 阅读全文
posted @ 2018-06-02 11:45 Frankdeng 阅读(2192) 评论(0) 推荐(0) 编辑
摘要: MapReduce中多表合并案例 一.案例需求 订单数据表t_order: id pid amount 1001 01 1 1002 02 2 1003 03 3 订单数据order.txt 商品信息表t_product pid pname 01 小米 02 华为 03 格力 商品数据pd.txt 阅读全文
posted @ 2018-06-02 11:02 Frankdeng 阅读(4544) 评论(0) 推荐(0) 编辑
摘要: 小文件处理(自定义InputFormat) 1.需求分析 无论hdfs还是mapreduce,对于小文件都有损效率,实践中,又难免面临处理大量小文件的场景,此时,就需要有相应解决方案。将多个小文件合并成一个文件SequenceFile,SequenceFile里面存储着多个文件,存储的形式为文件路径 阅读全文
posted @ 2018-06-02 10:18 Frankdeng 阅读(3411) 评论(0) 推荐(0) 编辑
摘要: 过滤日志及自定义日志输出路径(自定义OutputFormat) 1.需求分析 过滤输入的log日志中是否包含xyg (1)包含xyg的网站输出到e:/xyg.log (2)不包含xyg的网站输出到e:/other.log 2.数据准备 http://www.baidu.com http://www. 阅读全文
posted @ 2018-06-02 00:56 Frankdeng 阅读(2348) 评论(0) 推荐(0) 编辑
摘要: 一. 倒排索引(多job串联) 1. 需求分析 有大量的文本(文档、网页),需要建立搜索索引 xyg pingping xyg ss xyg ss xyg pingping xyg pingping pingping ss xyg ss xyg pingping (1)第一次预期输出结果 (2)第二 阅读全文
posted @ 2018-06-02 00:26 Frankdeng 阅读(1476) 评论(1) 推荐(0) 编辑
摘要: 找博客共同好友案例 1)数据准备 以下是博客的好友列表数据,冒号前是一个用户,冒号后是该用户的所有好友(数据中的好友关系是单向的) A:B,C,D,F,E,O B:A,C,E,K C:F,A,D,I D:A,E,F,L E:B,C,D,M,L F:A,B,C,D,E,O,M G:A,C,D,E,F 阅读全文
posted @ 2018-06-01 23:42 Frankdeng 阅读(2739) 评论(1) 推荐(0) 编辑
摘要: 压缩/解压缩案例 一. 对数据流的压缩和解压缩 CompressionCodec有两个方法可以用于轻松地压缩或解压缩数据。要想对正在被写入一个输出流的数据进行压缩,我们可以使用createOutputStream(OutputStreamout)方法创建一个CompressionOutputStre 阅读全文
posted @ 2018-06-01 22:52 Frankdeng 阅读(2954) 评论(0) 推荐(1) 编辑
摘要: 日志清洗案例 一. 简单解析版 1)需求 去除日志中字段长度小于等于11的日志。 2)输入数据 3)实现代码 (1)编写LogMapper (2)编写LogDriver 二. 复杂解析版 1)需求 对web访问日志中的各字段识别切分 去除日志中不合法的记录 根据统计需求,生成各类访问请求过滤数据 2 阅读全文
posted @ 2018-06-01 21:35 Frankdeng 阅读(2515) 评论(0) 推荐(1) 编辑
摘要: 一 Hadoop数据压缩 1.1 概述 压缩技术能够有效减少底层存储系统(HDFS)读写字节数。压缩提高了网络带宽和磁盘空间的效率。在Hadood下,尤其是数据规模很大和工作负载密集的情况下,使用数据压缩显得非常重要。在这种情况下,I/O操作和网络数据传输要花大量的时间。还有,Shuffle与Mer 阅读全文
posted @ 2018-05-27 22:23 Frankdeng 阅读(2807) 评论(0) 推荐(0) 编辑
上一页 1 ··· 6 7 8 9 10 11 12 13 下一页