摘要: 最近打算研究研究 Flink,根据官方文档写个 Hello,World。入门还是比较容易的,不需要复杂的安装环境、配置。这篇文章简单介绍 Flink 的使用感受以及入门。 感受 搭建环境方便:Flink 可以在 Windows 下运行与开发。对于喜欢 Windows 下开发的人,可以免去搭建虚拟机的 阅读全文
posted @ 2019-05-27 12:42 渡码 阅读(2594) 评论(5) 推荐(2) 编辑
摘要: 15年毕业,算上实习经历差不多有四年半的工作经验。没想到时间过得这么快,有时候还觉得跟刚毕业一样。之前在创业公司呆过两年半,目前在阿里做大数据/算法相关的工作。这四年来收获过成功的喜悦也尝过失败的苦果。面对正在跑步进入大龄程序员队列的我,对过去有一些思考总结,同时对未来也有一些想法。这是我的第一篇非 阅读全文
posted @ 2019-05-20 08:26 渡码 阅读(2861) 评论(16) 推荐(12) 编辑
摘要: 在大数据处理以及分析中 SQL 的普及率非常高,几乎是每一个大数据工程师必须掌握的语言,甚至非数据处理岗位的人也在学习使用 SQL。今天这篇文章就聊聊 SQL 在数据分析中作用以及掌握 SQL 的必要性。 SQL解决了什么问题 SQL的中文翻译为:结构化查询语言。这里面有三层含义:首先这是一门编程语 阅读全文
posted @ 2019-05-14 09:27 渡码 阅读(2436) 评论(3) 推荐(0) 编辑
摘要: 本章来简单介绍下 Hadoop MapReduce 中的 Combiner。Combiner 是为了聚合数据而出现的,那为什么要聚合数据呢?因为我们知道 Shuffle 过程是消耗网络IO 和 磁盘IO 比较大的操作,如果我们能减少 Shuffle 过程的数据量,那就可以提升整个 MR 作业的性能。 阅读全文
posted @ 2019-04-23 13:10 渡码 阅读(1015) 评论(0) 推荐(0) 编辑
摘要: 本章内容我们学习一下 MapReduce 中的 Shuffle 过程,Shuffle 发生在 map 输出到 reduce 输入的过程,它的中文解释是 “洗牌”,顾名思义该过程涉及数据的重新分配,主要分为两部分:1. map 任务输出的数据分组、排序,写入本地磁盘 2. reduce 任务拉取排序。 阅读全文
posted @ 2019-04-16 13:33 渡码 阅读(2858) 评论(0) 推荐(1) 编辑
摘要: 前几章我们介绍了 Hadoop 的 MapReduce 和 HDFS 两大组件,内容比较基础,看完后可以写简单的 MR 应用程序,也能够用命令行或 Java API 操作 HDFS。但要对 Hadoop 做深入的了解,显然不够用。因此本章就深入了解一下 MapReduce 应用的运行机制,从而学习 阅读全文
posted @ 2019-04-09 12:59 渡码 阅读(1070) 评论(0) 推荐(0) 编辑
摘要: 代理模式为另一个对象提供一个替身以控制对这个对象的访问。从定义可以看出,1. 代理模式提供了一个替身,即代理对象 2. 代理对象是为了控制对另一个对象(真实对象)的访问,控制可以理解为做权限检查、可行性判断等。举个例子,代理对象 = 经纪人,真实对象 = 明星,如果某剧组想邀请明星出演电影,先将剧本 阅读全文
posted @ 2019-04-01 13:43 渡码 阅读(824) 评论(0) 推荐(0) 编辑
摘要: 本章内容介绍下 Hadoop 自带的分布式文件系统,HDFS 即 Hadoop Distributed Filesystem。HDFS 能够存储超大文件,可以部署在廉价的服务器上,适合一次写入多次读取的场景。但 HDFS 不适合低延迟,存储大量小文件以及修改文件内容的场景。HDFS 应用比较广泛,如 阅读全文
posted @ 2019-03-25 13:37 渡码 阅读(914) 评论(1) 推荐(0) 编辑
摘要: 上一章的 MapReduce 应用中,我们使用了自定义配置,并用 GenericOptionsParser 处理命令行输入的配置,这种方式简单粗暴。但不是 MapReduce 应用常见的写法,本章第一部分将介绍 MapReduce 应用常见的写法,并详细介绍自定义配置以及命令行选项,通过自定义配置我 阅读全文
posted @ 2019-03-19 08:49 渡码 阅读(606) 评论(0) 推荐(0) 编辑
摘要: 上一章我们编写了简单的 MapReduce 程序,掌握这些就能编写大多数数据处理的代码。但是 MapReduce 框架提供给用户的能力并不止如此,本章我们仍然以上一章 word count 为例,继续完善我们的数据处理代码。本章主要关注的重点包括三个部分: 1. 完整的 map / reduce 任 阅读全文
posted @ 2019-03-12 08:23 渡码 阅读(616) 评论(0) 推荐(2) 编辑