随笔档案「2019年3月」 - 渡码

大数据技术 - 分布式文件系统 HDFS 的设计

摘要：本章内容介绍下 Hadoop 自带的分布式文件系统，HDFS 即 Hadoop Distributed Filesystem。HDFS 能够存储超大文件，可以部署在廉价的服务器上，适合一次写入多次读取的场景。但 HDFS 不适合低延迟，存储大量小文件以及修改文件内容的场景。HDFS 应用比较广泛，如阅读全文

posted @ 2019-03-25 13:37 渡码阅读(996) 评论(1) 推荐(0)

大数据技术 - MapReduce 应用的配置和单元测试

摘要：上一章的 MapReduce 应用中，我们使用了自定义配置，并用 GenericOptionsParser 处理命令行输入的配置，这种方式简单粗暴。但不是 MapReduce 应用常见的写法，本章第一部分将介绍 MapReduce 应用常见的写法，并详细介绍自定义配置以及命令行选项，通过自定义配置我阅读全文

posted @ 2019-03-19 08:49 渡码阅读(662) 评论(0) 推荐(0)

大数据技术 - 通俗理解MapReduce之WordCount（三）

摘要：上一章我们编写了简单的 MapReduce 程序，掌握这些就能编写大多数数据处理的代码。但是 MapReduce 框架提供给用户的能力并不止如此，本章我们仍然以上一章 word count 为例，继续完善我们的数据处理代码。本章主要关注的重点包括三个部分： 1. 完整的 map / reduce 任阅读全文

posted @ 2019-03-12 08:23 渡码阅读(685) 评论(0) 推荐(2)

Intellij IDEA 解决 Maven 依赖下载慢的问题

摘要：最近用 IDEA 导入 Hadoop 源码，但下载依赖特别慢。导致经常需要重启 IDEA 并且下载的过程非常艰难，网上找了一些方法，各种尝试，终于解决了这个问题。本篇文章总结最关键的两点，希望能帮助到还在坑里的人。修改依赖镜像 Maven 默认到国外站点下载依赖，这是慢的主要原因。所以最好配置阅读全文

posted @ 2019-03-04 09:50 渡码阅读(1759) 评论(0) 推荐(0)

大数据技术 - 通俗理解MapReduce之WordCount（二）

摘要：上一章我们搭建了分布式的 Hadoop 集群。本章我们介绍 Hadoop 框架中的一个核心模块 - MapReduce。MapReduce 是并行计算模块，顾名思义，它包含两个主要的阶段，map 阶段和 reduce 阶段。每个阶段输入和输出都是键值对。map 阶段主要是对输入的原始数据做处理，按照阅读全文

posted @ 2019-03-03 18:04 渡码阅读(579) 评论(0) 推荐(0)

03 2019 档案

公告