随笔分类 - Hadoop

HDFS数据保护之回收站功能

摘要：引言：当从HDFS删除文件时，将释放与该文件相关联的块。而配置HDFS的回收站功能后，其会将删除的文件和目录存储在特定回收站目录中一定的时间后释放块，然后再将其永久删除，即可防止意外数据删除。如果配置了回收站功能且回收间隔大于0，那么删除的文件或者目录会在用户主目录下的.Trash目录保存。一、进阅读全文

posted @ 2020-06-19 01:54 buildings 阅读(2300) 评论(0) 推荐(0) 编辑

Spark on Yarn配置（详细）

摘要：本文是基于已经搭建好且正常运行的Spark以及Hadoop集群上进行，为了支持Spark on Yarn是需要额外的配置。 1、Spark on Yarn配置在搭建好的Spark上修改spark-env.sh文件： # vim $SPARK_HOME/conf/spark-env.sh 添加以下配阅读全文

posted @ 2020-05-29 03:39 buildings 阅读(9231) 评论(2) 推荐(1) 编辑

MapReduce on Yarn运行原理

摘要：一、概念综述 MapReduce是一种可用于数据处理的编程模型（或计算模型），该模型可以比较简单，但想写出有用的程序却不太容易。MapReduce能将大型数据处理任务分解成很多单个的、可以在服务器集群中并行执行的任务，而这些任务的计算结果可以合并在一起计算最终的结果。最重要的是，MapReduce的阅读全文

posted @ 2019-08-15 20:16 buildings 阅读(2299) 评论(0) 推荐(2) 编辑

Spark源码编译 + 伪分布式搭建 + Hive on Spark配置

摘要：Spark大数据平台有使用一段时间了，但大部分都是用于实验而搭建起来用的，搭建过Spark完全分布式，也搭建过用于测试的伪分布式。现在是写一遍随笔，记录一下曾经搭建过的环境，免得以后自己忘记了。也给和初学者以及曾经挖过坑的人用作参考。 Hive on Spark是Hive跑在Spark上，用的是Sp 阅读全文

posted @ 2019-08-10 20:24 buildings 阅读(1373) 评论(1) 推荐(1) 编辑

Hadoop版本升级（2.7.6 => 3.1.2）

摘要：自己的主机上的Hadoop版本是2.7.6，是测试用的伪分布式Hadoop，在前段时间部署了Hive on Spark，但由于没有做好功课，导致了Hive无法正常启动，原因在于Hive 3.x版本不适配Hadoop 2.x版本。之前我在学校服务器上部署的Hadoop版本是3.1.2，现打算将自己的从阅读全文

posted @ 2019-08-09 22:32 buildings 阅读(7852) 评论(1) 推荐(1) 编辑

Hadoop运行原理总结（详细）

摘要：本编随笔是小编参照个人的笔记、官方文档以及网上的资料等后对HDFS的概念以及运行原理进行系统性地归纳，说起来真的惭愧呀，自学了很长一段时间也没有对Hadoop知识点进行归纳，有时候在实战中或者与别人交流Hadoop相关技术时，很多概念也只是模模糊糊记得，并非很熟练。哈哈哈，趁着本科中最后一个暑假，把阅读全文

posted @ 2019-07-27 02:19 buildings 阅读(15193) 评论(4) 推荐(4) 编辑

公告

昵称： buildings
园龄： 6年8个月
粉丝： 21
关注： 0

+加关注

2025年3月

日

一

二

三

四

五

六

buildings

随笔分类 - Hadoop

公告

搜索

常用链接

我的标签

随笔分类

随笔档案

阅读排行榜

评论排行榜

推荐排行榜

最新评论