hdfs - 随笔分类 - jsqup

HDFS-HA搭建

摘要：进程介绍 1. Zkfc(ZKFailoverController)作用：切换NN状态；对NN进行心跳保持(监听)，当发现NN active异常，会通知Zookeeper,然后ZK重新选举一个新的NN接管，切换成NN active状态; 2. JournalNode NameNode之间共享数据阅读全文

posted @ 2022-09-09 09:38 jsqup 阅读(45) 评论(0) 推荐(0)

访问端口总结

摘要：||启动方式|访问端口| |--|--|--| |HDFS|start-dfs.sh|NameNode(9000 API操作；50070 web访问端口)| |||DataNode(50010 dn和nn通信的端口；50075(datanode的web访问端口)| |||snn(50090 snn的阅读全文

posted @ 2022-08-19 12:06 jsqup 阅读(79) 评论(0) 推荐(0)

退役数据节点

摘要：在hdfs的namenode所在结点的Hadoop的安装目录的etc/hadoop目录下创建一个dfs.hosts.exclude文件填写dfs需要的退役的节点主机名 [root@node1 hadoop]# pwd /opt/app/hadoop-2.8.5/etc/hadoop [root@n 阅读全文

posted @ 2022-07-21 18:17 jsqup 阅读(74) 评论(0) 推荐(0)

当集群中的空间不够时，增加结点动态扩容（服役新节点） (在不关机的情况下，增加一台datanode)

摘要：克隆克隆当前的虚拟机修改3台虚拟机的ip地址和主机名 vim /etc/sysconfig/network-scripts/ifcfg-ens33 将IPADDR修改为192.168.200.225 重新启动网络服务使其生效 systemctl restart network 配置主机名的映射阅读全文

posted @ 2022-07-21 17:57 jsqup 阅读(129) 评论(0) 推荐(0)

NameNode与SecondaryName工作机制

posted @ 2022-07-21 16:26 jsqup 阅读(57) 评论(0) 推荐(0)

借助maven项目开发HDFS

摘要：pom.xml文件 <properties> <hadoop.version>2.8.5</hadoop.version> </properties> <dependencies> <!-- 引入Hadoop的编程依赖 hadoop-common hadoop-client 版本是统一的都是2.8 阅读全文

posted @ 2022-07-21 12:33 jsqup 阅读(105) 评论(0) 推荐(0)

hdfs-javaAPI操作

摘要：创建一个普通的java项目导入jar包附：jar包如何来的代码阶段上传下载文件 package com.sxuek; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.FileSystem; im 阅读全文

posted @ 2022-07-21 09:49 jsqup 阅读(117) 评论(0) 推荐(0)

hdfs连接、上传文件、下载文件的操作

摘要：package com.sxuek; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.FileSystem; import org.apache.hadoop.fs.Path; import java. 阅读全文

posted @ 2022-07-21 07:37 jsqup 阅读(1488) 评论(0) 推荐(0)

关于本地hadoop的配置

摘要：由于实训需要，把之前配置的都删掉了阅读全文

posted @ 2022-07-20 18:30 jsqup 阅读(23) 评论(0) 推荐(0)

hadoop操作命令

摘要：两种操作 hadoop fs hdfs dfs 具体的命令查看hdfs dfs --help hdfs和linux本地的命令的操作不同 [root@node1 ~]# hdfs dfs -tail -f /a.txt * ** *** ***** [root@node1 ~]# tail -n 10 阅读全文

posted @ 2022-07-20 18:01 jsqup 阅读(34) 评论(0) 推荐(0)

关于block大小的修改

摘要：在/opt/app/hadoop-2.8.5/etc/hadoop目录下，修改hdfs-site.xml文件 <property> <name>dfs.block.size</name> <value>26214400</value> </property> # 如果设置块的大小为250M，则设置2 阅读全文

posted @ 2022-07-20 17:44 jsqup 阅读(134) 评论(0) 推荐(0)

为什么hadoop2.x以后block大小为128M？

摘要：注意：寻址时间不能变，寻址时间为传输时间的1%也不能变。阅读全文

posted @ 2022-07-20 16:54 jsqup 阅读(62) 评论(0) 推荐(0)

hadoop文档查看

摘要：![](https://img2022.cnblogs.com/blog/2487693/202207/2487693-20220720160533551-1023057744.png) ![](https://img2022.cnblogs.com/blog/2487693/202207/2487693-20220720160541336-808159821.png) ![](https://i 阅读全文

posted @ 2022-07-20 16:31 jsqup 阅读(24) 评论(0) 推荐(0)

完全分布式搭建

摘要：修改ip地址和主机名修改3台虚拟机的ip地址和主机名 vim /etc/sysconfig/network-scripts/ifcfg-ens33 将IPADDR修改为 192.168.200.81 重新启动网络服务使其生效 systemctl restart network 集群规划 |组件|n 阅读全文

posted @ 2022-07-20 15:38 jsqup 阅读(39) 评论(0) 推荐(0)

Hadoop伪分布环境搭建

摘要：核心配置文件 hadoop-env.sh: hadoop依赖环境配置; core-site.xml ： hadoop 公共运行配置项配置文件： hdfs-site.xml ： hdfs相关配置项配置文件； mapred-env.sh ： mapreduce运行环境配置 mapred-site.xml 阅读全文

posted @ 2022-07-20 11:06 jsqup 阅读(37) 评论(0) 推荐(0)

mapreduce面试题

摘要：1.mapreduce核心思想分而治之，先分后和将一个大的、复杂的工作或任务，拆分成小的任务，并行处理，最终进行合并适用于大量复杂的、时效性不高的任务处理场景 Map负责数据拆分map:[k1, v1] → [k2, v2] Reduce负责数据合并 reduce:[k1, (v1, vn. 阅读全文

posted @ 2022-03-10 20:17 jsqup 阅读(464) 评论(0) 推荐(0)

Hadoop之Shuffle机制详解

摘要：1. 什么是Shuffle机制？在Hadoop中数据从Map阶段传递给Reduce阶段的过程就叫Shuffle，Shuffle机制是整个MapReduce框架中最核心的部分。 Shuffle翻译成中文的意思为：洗牌、发牌（核心机制：数据分区、排序、缓存) 2. Shuffle的作用范围一般把数据阅读全文

posted @ 2022-03-08 15:57 jsqup 阅读(510) 评论(0) 推荐(0)

Hadoop框架高可用配置---HA

摘要：1.高可用集群搭建 2.准备安装环境 tar -zxvf hadoop-3.1.2.tar.gz mv hadoop-3.1.2 /opt/ cd /opt/hadoop-3.1.2/etc/hadoop/ 3.修改集群环境 vim hadoop-env.sh # 直接在文件的最后添加 export 阅读全文

posted @ 2022-03-07 13:50 jsqup 阅读(48) 评论(0) 推荐(0)

Hadoop1.0,2.0,3.0区别

摘要：Hadoop1.x 组成由Common(公共模块辅助工具)、HDFS(分布式数据存储)、MapReduce(分布式计算+资源调度)组成简介其中HDFS由一个NN和多个DN组成，MapReduce有一个JobTracker和多个TaskTracker组成。在Hadoop1.0中容易造成单点故障阅读全文

posted @ 2022-03-04 21:34 jsqup 阅读(911) 评论(0) 推荐(0)

hdfs面试资料结合学习笔记

摘要：1. 写数据读数据写数据流程读数据流程 2. 为什么HDFS不支持存储小文件？原因占用NameNode大量的内存和磁盘来存储文件目录和块信息读取小文件的寻址时间大于读取小文件内容的时间解决方案从根源上解决小文件的产生，如从每小时抽取一次修改为每天抽取一次来积累数据量合并。写一个MR任阅读全文

posted @ 2022-03-04 19:47 jsqup 阅读(96) 评论(0) 推荐(0)

jsqup

随笔分类 - hdfs

公告