03 2019 档案

摘要:本章内容介绍下 Hadoop 自带的分布式文件系统,HDFS 即 Hadoop Distributed Filesystem。HDFS 能够存储超大文件,可以部署在廉价的服务器上,适合一次写入多次读取的场景。但 HDFS 不适合低延迟,存储大量小文件以及修改文件内容的场景。HDFS 应用比较广泛,如 阅读全文
posted @ 2019-03-25 13:37 渡码 阅读(914) 评论(1) 推荐(0) 编辑
摘要:上一章的 MapReduce 应用中,我们使用了自定义配置,并用 GenericOptionsParser 处理命令行输入的配置,这种方式简单粗暴。但不是 MapReduce 应用常见的写法,本章第一部分将介绍 MapReduce 应用常见的写法,并详细介绍自定义配置以及命令行选项,通过自定义配置我 阅读全文
posted @ 2019-03-19 08:49 渡码 阅读(606) 评论(0) 推荐(0) 编辑
摘要:上一章我们编写了简单的 MapReduce 程序,掌握这些就能编写大多数数据处理的代码。但是 MapReduce 框架提供给用户的能力并不止如此,本章我们仍然以上一章 word count 为例,继续完善我们的数据处理代码。本章主要关注的重点包括三个部分: 1. 完整的 map / reduce 任 阅读全文
posted @ 2019-03-12 08:23 渡码 阅读(616) 评论(0) 推荐(2) 编辑
摘要:最近用 IDEA 导入 Hadoop 源码, 但下载依赖特别慢。导致经常需要重启 IDEA 并且下载的过程非常艰难, 网上找了一些方法,各种尝试,终于解决了这个问题。本篇文章总结最关键的两点,希望能帮助到还在坑里的人。 修改依赖镜像 Maven 默认到国外站点下载依赖,这是慢的主要原因。所以最好配置 阅读全文
posted @ 2019-03-04 09:50 渡码 阅读(1501) 评论(0) 推荐(0) 编辑
摘要:上一章我们搭建了分布式的 Hadoop 集群。本章我们介绍 Hadoop 框架中的一个核心模块 - MapReduce。MapReduce 是并行计算模块,顾名思义,它包含两个主要的阶段,map 阶段和 reduce 阶段。每个阶段输入和输出都是键值对。map 阶段主要是对输入的原始数据做处理,按照 阅读全文
posted @ 2019-03-03 18:04 渡码 阅读(522) 评论(0) 推荐(0) 编辑