08 2019 档案

MapReduce on Yarn运行原理

摘要：一、概念综述 MapReduce是一种可用于数据处理的编程模型（或计算模型），该模型可以比较简单，但想写出有用的程序却不太容易。MapReduce能将大型数据处理任务分解成很多单个的、可以在服务器集群中并行执行的任务，而这些任务的计算结果可以合并在一起计算最终的结果。最重要的是，MapReduce的阅读全文

posted @ 2019-08-15 20:16 buildings 阅读(2299) 评论(0) 推荐(2) 编辑

Spark源码编译 + 伪分布式搭建 + Hive on Spark配置

摘要：Spark大数据平台有使用一段时间了，但大部分都是用于实验而搭建起来用的，搭建过Spark完全分布式，也搭建过用于测试的伪分布式。现在是写一遍随笔，记录一下曾经搭建过的环境，免得以后自己忘记了。也给和初学者以及曾经挖过坑的人用作参考。 Hive on Spark是Hive跑在Spark上，用的是Sp 阅读全文

posted @ 2019-08-10 20:24 buildings 阅读(1373) 评论(1) 推荐(1) 编辑

Hadoop版本升级（2.7.6 => 3.1.2）

摘要：自己的主机上的Hadoop版本是2.7.6，是测试用的伪分布式Hadoop，在前段时间部署了Hive on Spark，但由于没有做好功课，导致了Hive无法正常启动，原因在于Hive 3.x版本不适配Hadoop 2.x版本。之前我在学校服务器上部署的Hadoop版本是3.1.2，现打算将自己的从阅读全文

posted @ 2019-08-09 22:32 buildings 阅读(7852) 评论(1) 推荐(1) 编辑

公告

昵称： buildings
园龄： 6年8个月
粉丝： 21
关注： 0

+加关注

2025年3月

日

一

二

三

四

五

六

buildings

08 2019 档案

公告

搜索

常用链接

我的标签

随笔分类

随笔档案

阅读排行榜

评论排行榜

推荐排行榜

最新评论