2018 年 1月 30 日随笔档案 - NightRaven

2018年1月30日

摘要： 1、reduce side join 在reduce端进行表的连接，该方法的特点就是操作简单，缺点是map端shffule后传递给reduce端的数据量过大，极大的降低了性能连接方法：（1）map端读入输入数据，以连接键为Key，待连接的内容为value，但是value需要添加特别的标识，表示的阅读全文

posted @ 2018-01-30 19:51 NightRaven 阅读(128) 评论(0) 推荐(0) 编辑

map侧连接

摘要：两个数据集中一个非常小，可以让小数据集存入缓存。在作业开始这些文件会被复制到运行task的节点上。一开始，它的setup方法会检索缓存文件。与reduce侧连接不同，Map侧连接需要等待参与连接的数据集满足如下条件: 1.除了连接键外，所有的输入都必须按照连接键排序。输入的各种数据集必须有相同阅读全文

posted @ 2018-01-30 19:35 NightRaven 阅读(230) 评论(0) 推荐(0) 编辑

二次排序

摘要：样例输入： file1 file2 实验思路：我们设置一个新类myNewKey，这个类继承WritableComparable接口。然后我们把myNewKey写入map中，然后在map阶段中，实现自动排序，我们只需在reduce阶段输出就可以了。代码： MyNewKey.java: import 阅读全文

posted @ 2018-01-30 18:23 NightRaven 阅读(220) 评论(0) 推荐(0) 编辑

倒排索引

摘要： "倒排索引"是文档检索系统中最常用的数据结构，被广泛地应用于全文搜索引擎。它主要是用来存储某个单词（或词组）在一个文档或一组文档中的存储位置的映射，即提供了一种根据内容来查找文档的方式。由于不是根据文档来确定文档所包含的内容，而是进行相反的操作，因而称为倒排索引（Inverted Index）。实阅读全文

posted @ 2018-01-30 10:13 NightRaven 阅读(279) 评论(0) 推荐(0) 编辑

公告