随笔分类 -  Hadoop

摘要:引言:当从HDFS删除文件时,将释放与该文件相关联的块。而配置HDFS的回收站功能后,其会将删除的文件和目录存储在特定回收站目录中一定的时间后释放块,然后再将其永久删除,即可防止意外数据删除。如果配置了回收站功能且回收间隔大于0,那么删除的文件或者目录会在用户主目录下的.Trash目录保存。 一、进 阅读全文
posted @ 2020-06-19 01:54 buildings 阅读(2300) 评论(0) 推荐(0) 编辑
摘要:本文是基于已经搭建好且正常运行的Spark以及Hadoop集群上进行,为了支持Spark on Yarn是需要额外的配置。 1、Spark on Yarn配置 在搭建好的Spark上修改spark-env.sh文件: # vim $SPARK_HOME/conf/spark-env.sh 添加以下配 阅读全文
posted @ 2020-05-29 03:39 buildings 阅读(9231) 评论(2) 推荐(1) 编辑
摘要:一、概念综述 MapReduce是一种可用于数据处理的编程模型(或计算模型),该模型可以比较简单,但想写出有用的程序却不太容易。MapReduce能将大型数据处理任务分解成很多单个的、可以在服务器集群中并行执行的任务,而这些任务的计算结果可以合并在一起计算最终的结果。最重要的是,MapReduce的 阅读全文
posted @ 2019-08-15 20:16 buildings 阅读(2299) 评论(0) 推荐(2) 编辑
摘要:Spark大数据平台有使用一段时间了,但大部分都是用于实验而搭建起来用的,搭建过Spark完全分布式,也搭建过用于测试的伪分布式。现在是写一遍随笔,记录一下曾经搭建过的环境,免得以后自己忘记了。也给和初学者以及曾经挖过坑的人用作参考。 Hive on Spark是Hive跑在Spark上,用的是Sp 阅读全文
posted @ 2019-08-10 20:24 buildings 阅读(1373) 评论(1) 推荐(1) 编辑
摘要:自己的主机上的Hadoop版本是2.7.6,是测试用的伪分布式Hadoop,在前段时间部署了Hive on Spark,但由于没有做好功课,导致了Hive无法正常启动,原因在于Hive 3.x版本不适配Hadoop 2.x版本。之前我在学校服务器上部署的Hadoop版本是3.1.2,现打算将自己的从 阅读全文
posted @ 2019-08-09 22:32 buildings 阅读(7852) 评论(1) 推荐(1) 编辑
摘要:本编随笔是小编参照个人的笔记、官方文档以及网上的资料等后对HDFS的概念以及运行原理进行系统性地归纳,说起来真的惭愧呀,自学了很长一段时间也没有对Hadoop知识点进行归纳,有时候在实战中或者与别人交流Hadoop相关技术时,很多概念也只是模模糊糊记得,并非很熟练。哈哈哈,趁着本科中最后一个暑假,把 阅读全文
posted @ 2019-07-27 02:19 buildings 阅读(15193) 评论(4) 推荐(4) 编辑

点击右上角即可分享
微信分享提示