摘要: 1 Shuffle机制 Map方法之后,Reduce方法之前的数据处理过程称之为Shuffle。如图4-14所示。 2 Partition分区 3 Partition分区案例实操 1.需求 将统计结果按照手机归属地不同省份输出到不同文件中(分区) (1)输入数据 (2)期望输出数据 手机号136、1 阅读全文
posted @ 2020-07-18 22:28 秋华 阅读(223) 评论(0) 推荐(0) 编辑
摘要: 1.流程示意图,如图4-6,4-7所示 图4-6 MapReduce详细工作流程(一) 图4-7 MapReduce详细工作流程(二) 2.流程详解 上面的流程是整个MapReduce最全工作流程,但是Shuffle过程只是从第7步开始到第16步结束,具体Shuffle过程详解,如下: 1)MapT 阅读全文
posted @ 2020-07-18 22:20 秋华 阅读(334) 评论(0) 推荐(0) 编辑
摘要: 1 查看多台机器jps脚本 1)创建vim jpsall atguigu@hadoop102:cd /opt/module/hadoop-2.8.5/bin$ 2) #!/bin/bash for ((host=102;host<105;host++)); do echo hadoop$host s 阅读全文
posted @ 2020-07-18 15:29 秋华 阅读(444) 评论(0) 推荐(0) 编辑
摘要: 解决办法1: [root@djt002 hadoop]# vi /etc/selinux/config 改为 SELINUX=disabled 解决办法2: 查看你的$HADOOP_HOME/etc/hadoop下的core-site.xml和hdfs-site.xml是否配置好 解决办法3: 必须 阅读全文
posted @ 2020-07-18 14:34 秋华 阅读(761) 评论(0) 推荐(0) 编辑
摘要: 在配置hadoop集群时,时间同步是必须要做的,否则会出现各种意想不到的问题。 hadoop102 为 ntp server,hadoop103以及hadoop104 为ntp client(即需要同步时间机器) 1.全部机器都要安装ntp以及ntpdate sudo apt-get install 阅读全文
posted @ 2020-07-18 14:31 秋华 阅读(1379) 评论(0) 推荐(0) 编辑
摘要: hadoop集群通过web管理界面只显示一个节点,但每台机器datanode都启动了 datanode日志; java.net.ConnectException: Connection refused at sun.nio.ch.SocketChannelImpl.checkConnect(Nati 阅读全文
posted @ 2020-07-18 01:04 秋华 阅读(2066) 评论(0) 推荐(0) 编辑