摘要: MapReduce经典案例——词频统计 一、测试文件 test.txt 二、代码模块 1、Mapper组件 WordCountMapper.java package cn.itcast.hadoop.mr; import java.io.IOException; import org.apache. 阅读全文
posted @ 2024-04-19 15:07 朝暮青丝 阅读(156) 评论(0) 推荐(0) 编辑
摘要: 案例————使用Java API操作HDFS Hadoop的核心是HDFS和MapReduce。其中,HDFS是解决海量大数据文件存储的问题,是目前应用最广泛的分布式文件系统。 HDFS(Hadoop Distributed Filesystem)是一个易于扩展的分布式文件系统,运行在成百上千台低成 阅读全文
posted @ 2024-04-19 14:05 朝暮青丝 阅读(406) 评论(0) 推荐(0) 编辑
摘要: MapReduce经典案例————倒排索引 一、案例分析 1、倒排索引介绍: 倒排索引是文档检索系统中最常用的数据结构,被广泛应用于全文搜索引擎。 倒排索引主要用来存储某个单词(或词组)在一组文档中的存储位置的映射,提供了可以根据内容来查找文档的方式,而不是根据文档来确定内容,因此称为倒排索引(In 阅读全文
posted @ 2024-04-19 12:32 朝暮青丝 阅读(112) 评论(0) 推荐(0) 编辑
摘要: MapReduce经典案例————TopN 一、案例分析 1、topN介绍: TopN分析法是指从研究对象中按照某一个指标进行倒序或正序排列,取其中所需的N个数据,并对这N个数据进行重点分析的方法。 测试文件:num.txt 10 3 8 7 6 5 1 2 9 4 11 12 17 14 15 2 阅读全文
posted @ 2024-04-19 10:34 朝暮青丝 阅读(107) 评论(0) 推荐(0) 编辑