2020 年 7月 18 日随笔档案 - 秋华

2020年7月18日

摘要： 1 Shuffle机制 Map方法之后，Reduce方法之前的数据处理过程称之为Shuffle。如图4-14所示。 2 Partition分区 3 Partition分区案例实操 1．需求将统计结果按照手机归属地不同省份输出到不同文件中（分区）（1）输入数据（2）期望输出数据手机号136、1 阅读全文

posted @ 2020-07-18 22:28 秋华阅读(223) 评论(0) 推荐(0) 编辑

HADOOP MAPREDUCE（4）：MapReduce工作流程

摘要： 1．流程示意图，如图4-6，4-7所示图4-6 MapReduce详细工作流程（一）图4-7 MapReduce详细工作流程（二） 2．流程详解上面的流程是整个MapReduce最全工作流程，但是Shuffle过程只是从第7步开始到第16步结束，具体Shuffle过程详解，如下： 1）MapT 阅读全文

posted @ 2020-07-18 22:20 秋华阅读(334) 评论(0) 推荐(0) 编辑

多台机器shell脚本：jps脚本；启动zookeeper脚本；文件分发脚本

摘要： 1 查看多台机器jps脚本 1）创建vim jpsall atguigu@hadoop102:cd /opt/module/hadoop-2.8.5/bin$ 2） #!/bin/bash for ((host=102;host<105;host++)); do echo hadoop$host s 阅读全文

posted @ 2020-07-18 15:29 秋华阅读(444) 评论(0) 推荐(0) 编辑

hadoop 主机名无法访问问题解决汇总

摘要：解决办法1： [root@djt002 hadoop]# vi /etc/selinux/config 改为 SELINUX=disabled 解决办法2：查看你的$HADOOP_HOME/etc/hadoop下的core-site.xml和hdfs-site.xml是否配置好解决办法3：必须阅读全文

posted @ 2020-07-18 14:34 秋华阅读(761) 评论(0) 推荐(0) 编辑

Linux 集群时间同步(Ubuntu)

摘要：在配置hadoop集群时，时间同步是必须要做的，否则会出现各种意想不到的问题。 hadoop102 为 ntp server，hadoop103以及hadoop104 为ntp client（即需要同步时间机器） 1.全部机器都要安装ntp以及ntpdate sudo apt-get install 阅读全文

posted @ 2020-07-18 14:31 秋华阅读(1379) 评论(0) 推荐(0) 编辑

hadoop集群通过web管理界面只显示一个节点

摘要： hadoop集群通过web管理界面只显示一个节点，但每台机器datanode都启动了 datanode日志; java.net.ConnectException: Connection refused at sun.nio.ch.SocketChannelImpl.checkConnect(Nati 阅读全文

posted @ 2020-07-18 01:04 秋华阅读(2066) 评论(0) 推荐(0) 编辑

秋华

公告