打赏
摘要: "倒排索引"是文档检索系统中最常用的数据结构,被广泛地应用于全文搜索引擎。它主要是用来存储某个单词(或词组)在一个文档或一组文档中的存储位置的映射,即提供了一种根据内容来查找文档的方式。由于不是根据文档来确定文档所包含的内容,而是进行相反的操作,因而称为倒排索引(Inverted Index)。 实 阅读全文
posted @ 2019-11-19 15:35 不像话 阅读(732) 评论(0) 推荐(0) 编辑
摘要: 前言部分: 在Map阶段,使用job.setInputFormatClass定义的InputFormat将输入的数据集分割成小数据块splites,同时InputFormat提供一个RecordReder的实现。本实验中使用的是TextInputFormat,他提供的RecordReder会将文本的 阅读全文
posted @ 2019-11-19 14:09 不像话 阅读(414) 评论(0) 推荐(0) 编辑