xkkkkkkkkk_is_me

2018年8月31日

摘要： Join操作概述在关系型数据库中 Join 是非常常见的操作，各种优化手段已经到了极致。在海量数据的环境下，不可避免的也会碰到这种类型的需求，例如在数据分析时需要连接从不同的数据源中获取到数据。不同于传统的单机模式，在分布式存储下采用 MapReduce 编程模型，也有相应的处理措施和优化方法。阅读全文

posted @ 2018-08-31 05:59 xkkkkkkkkk_is_me 阅读(256) 评论(0) 推荐(0)

2018年8月30日

StringTokenizer

摘要： StringTokenizer是字符串分隔解析类型，属于：java.util包。 1.StringTokenizer的构造函数 StringTokenizer（String str）：构造一个用来解析str的StringTokenizer对象。java默认的分隔符是“空格”、“制表符（‘\t’）”、阅读全文

posted @ 2018-08-30 09:36 xkkkkkkkkk_is_me 阅读(103) 评论(0) 推荐(0)

2018年8月29日

MapReduce 二次排序

摘要：默认情况下，Map 输出的结果会对 Key 进行默认的排序，但是有时候需要对 Key 排序的同时再对 Value 进行排序，这时候就要用到二次排序了。下面让我们来介绍一下什么是二次排序。二次排序原理我们把二次排序主要分为以下几个阶段。 Map 起始阶段在Map阶段，使用 job.setInpu 阅读全文

posted @ 2018-08-29 21:39 xkkkkkkkkk_is_me 阅读(183) 评论(0) 推荐(0)

2018年8月28日

五个视频网站数据统计分析- 输入输出格式练习

摘要：一、需求自定义输入格式完成统计任务输出多个文件输入数据：5个网站的每天电视剧的播放量收藏数评论数踩数赞数输出数据：按网站类别统计每个电视剧的每个指标的总量任务目标：自定义输入格式完成统计任务输出多个文件二、数据部分数据三、思路第一步：定义一个电视剧热度数据的be 阅读全文

posted @ 2018-08-28 15:00 xkkkkkkkkk_is_me 阅读(779) 评论(0) 推荐(0)

2018年8月21日

小文件合并

摘要：一、项目背景在实际项目中，输入数据往往是由许多小文件组成，这里的小文件是指小于HDFS系统Block大小的文件（默认128M），然而每一个存储在HDFS中的文件、目录和块都映射为一个对象，存储在NameNode服务器内存中，通常占用150个字节。如果有1千万个文件，就需要消耗大约3G的内存空间阅读全文

posted @ 2018-08-21 20:46 xkkkkkkkkk_is_me 阅读(227) 评论(0) 推荐(0)

公告