上一页 1 ··· 11 12 13 14 15 16 17 18 19 ··· 24 下一页
摘要: 第一题 下面是三种商品的销售数据 要求:根据以上数据,用 MapReduce 统计出如下数据: 1、每种商品的销售总金额,并降序排序 2、每种商品销售额最多的三周 第二题:MapReduce 题 现有如下数据文件需要处理: 格式:CSV 数据样例: user_a,location_a,2018-01 阅读全文
posted @ 2018-03-24 16:06 扎心了,老铁 阅读(2853) 评论(1) 推荐(0) 编辑
摘要: 影评案例 数据及需求 数据格式 movies.dat 3884条数据 users.dat 6041条数据 ratings.dat 1000210条数据 数据解释 1、users.dat 数据格式为: 2::M::56::16::70072对应字段为:UserID BigInt, Gender Str 阅读全文
posted @ 2018-03-24 16:01 扎心了,老铁 阅读(3237) 评论(3) 推荐(0) 编辑
摘要: 学生成绩 增强版 数据信息 1 computer,huangxiaoming,85,86,41,75,93,42,85 2 computer,xuzheng,54,52,86,91,42 3 computer,huangbo,85,42,96,38 4 english,zhaobenshan,54, 阅读全文
posted @ 2018-03-24 16:00 扎心了,老铁 阅读(3646) 评论(4) 推荐(0) 编辑
摘要: YARN 1.1、YARN 概述 YARN(Yet Another Resource Negotiator) YARN 是一个资源调度平台,负责为运算程序提供服务器运算资源,相当于一个分布式的操 作系统平台,而 MapReduce 等运算程序则相当于运行于操作系统之上的应用程序 YARN 是 Had 阅读全文
posted @ 2018-03-24 15:59 扎心了,老铁 阅读(16373) 评论(2) 推荐(2) 编辑
摘要: 概述 1、MapReduce 中,mapper 阶段处理的数据如何传递给 reducer 阶段,是 MapReduce 框架中 最关键的一个流程,这个流程就叫 Shuffle 2、Shuffle: 数据混洗 ——(核心机制:数据分区,排序,局部聚合,缓存,拉取,再合并 排序) 3、具体来说:就是将 阅读全文
posted @ 2018-03-24 15:38 扎心了,老铁 阅读(13316) 评论(3) 推荐(2) 编辑
摘要: MapReduce的输入 作为一个会编写MR程序的人来说,知道map方法的参数是默认的数据读取组件读取到的一行数据 1、是谁在读取? 是谁在调用这个map方法? 查看源码Mapper.java知道是run方法在调用map方法。 此处map方法中有四个重要的方法: 1、context.nextKeyV 阅读全文
posted @ 2018-03-23 18:29 扎心了,老铁 阅读(5879) 评论(1) 推荐(1) 编辑
摘要: MapReduce Join 对两份数据data1和data2进行关键词连接是一个很通用的问题,如果数据量比较小,可以在内存中完成连接。 如果数据量比较大,在内存进行连接操会发生OOM。mapreduce join可以用来解决大数据的连接。 1 思路 1.1 reduce join 在map阶段, 阅读全文
posted @ 2018-03-23 18:28 扎心了,老铁 阅读(7490) 评论(6) 推荐(2) 编辑
摘要: 前言 在Hadoop中,排序是MapReduce的灵魂,MapTask和ReduceTask均会对数据按Key排序,这个操作是MR框架的默认行为,不管你的业务逻辑上是否需要这一操作。 技术点 MapReduce框架中,用到的排序主要有两种:快速排序和基于堆实现的优先级队列(PriorityQueue 阅读全文
posted @ 2018-03-21 13:31 扎心了,老铁 阅读(7659) 评论(5) 推荐(1) 编辑
摘要: 流量统计项目案例 样本示例 需求 1、 统计每一个用户(手机号)所耗费的总上行流量、总下行流量,总流量 2、 得出上题结果的基础之上再加一个需求:将统计结果按照总流量倒序排序 3、 将流量汇总统计结果按照手机归属地不同省份输出到不同文件中 第一题 第二题 FlowBean.java 1 import 阅读全文
posted @ 2018-03-21 11:45 扎心了,老铁 阅读(4104) 评论(4) 推荐(4) 编辑
摘要: 对combiner的理解 combiner其实属于优化方案,由于带宽限制,应该尽量map和reduce之间的数据传输数量。它在Map端把同一个key的键值对合并在一起并计算,计算规则与reduce一致,所以combiner也可以看作特殊的Reducer。 执行combiner操作要求开发者必须在程序 阅读全文
posted @ 2018-03-21 11:44 扎心了,老铁 阅读(3974) 评论(1) 推荐(0) 编辑
上一页 1 ··· 11 12 13 14 15 16 17 18 19 ··· 24 下一页