摘要: 1.Hadoop入门之部署篇 2.Hadoop之HDFS(一)概述与常用Shell操作 3.Hadoop之HDFS(二)HDFS工作机制和集群安全模式 4.Hadoop之HDFS(三)HDFS API操作示例和读写流程 5.Hadoop之MapReduce(一)初识 6.Hadoop之MapRedu 阅读全文
posted @ 2020-12-30 16:41 leafgood 阅读(133) 评论(0) 推荐(0) 编辑
摘要: 1.MapReduce介绍 MapReduce是一个分布式运算程序的编程框架,是用户开发“基于Hadoop的数据分析应用”的核心框架。 MapReduce核心功能是将用户编写的业务逻辑代码和自带默认组件整合成一个完整的分布式运算程序,并发运行在一个Hadoop集群上。 MapReduce的作用就是大 阅读全文
posted @ 2020-12-30 16:39 leafgood 阅读(204) 评论(0) 推荐(0) 编辑
摘要: 1.HDFS API示例 1.1 Client API 1)准备工作 本人习惯使用Ubuntu,ide工具则是idea,如果是windows系统或者eclipse自行百度吧,我没有试过。 老套路,创建Maven工程,导入依赖 <dependencies> <dependency> <groupId> 阅读全文
posted @ 2020-12-30 16:38 leafgood 阅读(363) 评论(0) 推荐(0) 编辑
摘要: 1 NameNode和DataNode之间的心跳机制 1)NameNode启动时,会启动一个IPC server服务, 2)DataNode启动后会主动连接NameNode的IP server服务,默认每隔3秒连接一次,也就是心跳。 这个时间可以通过 dfs.heartbeat.interval参数 阅读全文
posted @ 2020-12-30 16:35 leafgood 阅读(190) 评论(0) 推荐(0) 编辑
摘要: 1.HDFS概述 1.1 HDFS简介 HDFS(Hadoop Distributed File System) ,Hadoop分布式文件系统,用来解决海量数据的存储问题。 1.2 HDFS的特点 优势 高容错性:HDFS多副本分布式存储,当一个副本丢失了,能够自动恢复,所以HDFS具有高容错性,默 阅读全文
posted @ 2020-12-30 16:34 leafgood 阅读(447) 评论(0) 推荐(0) 编辑