2021 年 11月 19 日随笔档案 - ***Pepsi***

11.Mapreduce实例——MapReduce自定义输出格式

摘要： 11．Mapreduce实例——MapReduce自定义输出格式实验原理 1.输出格式：提供给OutputCollector的键值对会被写到输出文件中，写入的方式由输出格式控制。OutputFormat的功能跟前面描述的InputFormat类很像，Hadoop提供的OutputFormat的实例阅读全文

posted @ 2021-11-19 19:42 ***Pepsi*** 阅读(115) 评论(0) 推荐(0) 编辑

10．Mapreduce实例——MapReduce自定义输入格式小

摘要： 10．Mapreduce实例——MapReduce自定义输入格式小实验原理 1.输入格式：InputFormat类定义了如何分割和读取输入文件，它提供有下面的几个功能：（1）选择作为输入的文件或对象；（2）定义把文件划分到任务的InputSplits；（3）为RecordReader读取文阅读全文

posted @ 2021-11-19 19:23 ***Pepsi*** 阅读(55) 评论(0) 推荐(0) 编辑

09．Mapreduce实例——ChainMapReduce小

摘要： 09．Mapreduce实例——ChainMapReduce小实验原理一些复杂的任务难以用一次MapReduce处理完成，需要多次MapReduce才能完成任务。Hadoop2.0开始MapReduce作业支持链式处理，类似于工厂的的生产线，每一个阶段都有特定的任务要处理，比如提供原配件——>组阅读全文

posted @ 2021-11-19 18:58 ***Pepsi*** 阅读(61) 评论(0) 推荐(0) 编辑

08．Mapreduce实例——倒排索引

摘要： 08．Mapreduce实例——倒排索引实验原理 "倒排索引"是文档检索系统中最常用的数据结构，被广泛地应用于全文搜索引擎。它主要是用来存储某个单词（或词组）在一个文档或一组文档中的存储位置的映射，即提供了一种根据内容来查找文档的方式。由于不是根据文档来确定文档所包含的内容，而是进行相反的操作，因阅读全文

posted @ 2021-11-19 18:42 ***Pepsi*** 阅读(133) 评论(0) 推荐(0) 编辑

07．Mapreduce实例——二次排序

摘要： 07．Mapreduce实例——二次排序实验原理在Map阶段，使用job.setInputFormatClass定义的InputFormat将输入的数据集分割成小数据块splites，同时InputFormat提供一个RecordReder的实现。本实验中使用的是TextInputFormat，阅读全文

posted @ 2021-11-19 18:09 ***Pepsi*** 阅读(51) 评论(0) 推荐(0) 编辑

06．Mapreduce实例——Reduce端join

摘要： 06．Mapreduce实例——Reduce端join 实验原理在Reudce端进行Join连接是MapReduce框架进行表之间Join操作最为常见的模式。 1.Reduce端Join实现原理（1）Map端的主要工作，为来自不同表（文件）的key/value对打标签以区别不同来源的记录。然后用阅读全文

posted @ 2021-11-19 15:22 ***Pepsi*** 阅读(69) 评论(0) 推荐(0) 编辑

05．Mapreduce实例——Map端join

摘要： 05．Mapreduce实例——Map端join 实验原理 MapReduce提供了表连接操作其中包括Map端join、Reduce端join还有单表连接，现在我们要讨论的是Map端join，Map端join是指数据到达map处理函数之前进行合并的，效率要远远高于Reduce端join，因为Redu 阅读全文

posted @ 2021-11-19 15:05 ***Pepsi*** 阅读(47) 评论(0) 推荐(0) 编辑

04．Mapreduce实例——单表join

摘要： 04．Mapreduce实例——单表join 实验原理以本实验的buyer1(buyer_id,friends_id)表为例来阐述单表连接的实验原理。单表连接，连接的是左表的buyer_id列和右表的friends_id列，且左表和右表是同一个表。因此，在map阶段将读入数据分割成buyer_id 阅读全文

posted @ 2021-11-19 14:29 ***Pepsi*** 阅读(116) 评论(0) 推荐(0) 编辑

03．Mapreduce实例——排序

摘要：实验原理 Map、Reduce任务中Shuffle和排序的过程图如下：流程分析： 1.Map端：（1）每个输入分片会让一个map任务来处理，默认情况下，以HDFS的一个块的大小（默认为64M）为一个分片，当然我们也可以设置块的大小。map输出的结果会暂且放在一个环形内存缓冲区中（该缓冲区的大小默阅读全文

posted @ 2021-11-19 11:20 ***Pepsi*** 阅读(120) 评论(0) 推荐(0) 编辑

02.Mapreduce实例——求平均值

摘要：实验原理求平均数是MapReduce比较常见的算法，求平均数的算法也比较简单，一种思路是Map端读取数据，在数据输入到Reduce之前先经过shuffle，将map函数输出的key值相同的所有的value值形成一个集合value-list，然后将输入到Reduce端，Reduce端汇总并且统计记录阅读全文

posted @ 2021-11-19 10:58 ***Pepsi*** 阅读(190) 评论(0) 推荐(0) 编辑

我的语言系统被粉碎了

公告

2021年11月19日