摘要:
流量汇总程序案例 1.自定义输出 统计手机号耗费的总上行流量、下行流量、总流量(序列化) 1)需求: 统计每一个手机号耗费的总上行流量、下行流量、总流量 2)数据准备 phone_date.txt 输入数据格式: 输出数据格式 3)分析 基本思路: Map阶段: (1)读取一行数据,切分字段 (2) 阅读全文
摘要:
辅助排序和二次排序案例(GroupingComparator) 1.需求 有如下订单数据 订单id 商品id 成交金额 0000001 Pdt_01 222.8 0000001 Pdt_05 25.8 0000002 Pdt_03 522.8 0000002 Pdt_04 122.4 0000002 阅读全文
摘要:
MapReduce中多表合并案例 一.案例需求 订单数据表t_order: id pid amount 1001 01 1 1002 02 2 1003 03 3 订单数据order.txt 商品信息表t_product pid pname 01 小米 02 华为 03 格力 商品数据pd.txt 阅读全文
摘要:
小文件处理(自定义InputFormat) 1.需求分析 无论hdfs还是mapreduce,对于小文件都有损效率,实践中,又难免面临处理大量小文件的场景,此时,就需要有相应解决方案。将多个小文件合并成一个文件SequenceFile,SequenceFile里面存储着多个文件,存储的形式为文件路径 阅读全文
摘要:
过滤日志及自定义日志输出路径(自定义OutputFormat) 1.需求分析 过滤输入的log日志中是否包含xyg (1)包含xyg的网站输出到e:/xyg.log (2)不包含xyg的网站输出到e:/other.log 2.数据准备 http://www.baidu.com http://www. 阅读全文
摘要:
一. 倒排索引(多job串联) 1. 需求分析 有大量的文本(文档、网页),需要建立搜索索引 xyg pingping xyg ss xyg ss xyg pingping xyg pingping pingping ss xyg ss xyg pingping (1)第一次预期输出结果 (2)第二 阅读全文