摘要: Join操作概述 在关系型数据库中 Join 是非常常见的操作,各种优化手段已经到了极致。在海量数据的环境下,不可避免的也会碰到这种类型的需求, 例如在数据分析时需要连接从不同的数据源中获取到数据。不同于传统的单机模式,在分布式存储下采用 MapReduce 编程模型,也有相应的处理措施和优化方法。 阅读全文
posted @ 2018-08-31 05:59 xkkkkkkkkk_is_me 阅读(206) 评论(0) 推荐(0) 编辑
摘要: StringTokenizer是字符串分隔解析类型,属于:java.util包。 1.StringTokenizer的构造函数 StringTokenizer(String str):构造一个用来解析str的StringTokenizer对象。java默认的分隔符是“空格”、“制表符(‘\t’)”、 阅读全文
posted @ 2018-08-30 09:36 xkkkkkkkkk_is_me 阅读(84) 评论(0) 推荐(0) 编辑
摘要: 默认情况下,Map 输出的结果会对 Key 进行默认的排序,但是有时候需要对 Key 排序的同时再对 Value 进行排序,这时候就要用到二次排序了。下面让我们来介绍一下什么是二次排序。 二次排序原理 我们把二次排序主要分为以下几个阶段。 Map 起始阶段 在Map阶段,使用 job.setInpu 阅读全文
posted @ 2018-08-29 21:39 xkkkkkkkkk_is_me 阅读(167) 评论(0) 推荐(0) 编辑
摘要: 一、需求 自定义输入格式 完成统计任务 输出多个文件 输入数据:5个网站的 每天电视剧的 播放量 收藏数 评论数 踩数 赞数 输出数据:按网站类别 统计每个电视剧的每个指标的总量 任务目标:自定义输入格式 完成统计任务 输出多个文件 二、数据 部分数据 三、思路 第一步:定义一个电视剧热度数据的be 阅读全文
posted @ 2018-08-28 15:00 xkkkkkkkkk_is_me 阅读(740) 评论(0) 推荐(0) 编辑
摘要: 一、项目背景 在实际项目中,输入数据往往是由许多小文件组成,这里的小文件是指小于HDFS系统Block大小的文件(默认128M), 然而每一个存储在HDFS中的文件、目录和块都映射为一个对象,存储在NameNode服务器内存中,通常占用150个字节。 如果有1千万个文件,就需要消耗大约3G的内存空间 阅读全文
posted @ 2018-08-21 20:46 xkkkkkkkkk_is_me 阅读(206) 评论(0) 推荐(0) 编辑