05 2022 档案
摘要:MapReduce的定义: MapReduce是一个分布式运算程序的编程框架,是用户基于“Hadoop的数据分析应用”的核心框架 MapReduce核心功能是将用户编写的业务逻辑代码和自带的默认组件构成一个完整的分布式运算程序,并运行在Hadoop集群上 MapReduce的缺点: 1.不擅长做实时
阅读全文
摘要:HDFS的简介:HDFS的产生背景:随着数据量的越来越大,一个操作系统存储不下所有的数据。需要分配到更多的操作系统管理的磁盘上存储。但是不方便管理和维护,迫切需要一种系统来管理多台机器上的文件,这就是分布式文件管理系统,HDFS只是分布式文件管路系统的一种。 HDFS的简介:HDFS是一个分布式文件
阅读全文
摘要:namenode内部通信端口: 8020/9820 namenode web访问端口: 9870 mapreduce web端查看正在执行的任务端口: 8088 历史服务器 web端口:19888
阅读全文
摘要:集群同步分发脚本: my_xsync.sh #1. 判断参数个数 if [ $# -lt 1 ] then echo Not Enough Arguement! exit; fi #2. 遍历集群所有机器 for host in hadoop102 hadoop103 hadoop104 do ec
阅读全文
摘要:Hadoop入门 大数据:无法在一定时间内,通过常规的技术手段解决的信息资产。 Hadoop就是解决大数据存储、计算问题的框架 Hadoop生态圈(Hadoop是核心) Hadoop的组成:Hadoop1.x时,hdfs负责大数据的存储 mapreduce负责大数据的计算和资源调度 Hadoop2.
阅读全文