随笔分类 - hadoop
摘要:yarn的基础架构 mr-yarn-hdfs任务提交全流程图解 yarn三种调度器的区别
阅读全文
摘要:mapreduce工作流程分成maptask和reducetask俩个阶段。其实就类似于spark和flink中的map算子和 reduce算子 主要关注这几个方面 逻辑切片如何决定maptask并行度 maptask计算开始前,job如何提交然后知道将文件分成多少逻辑切片 fileinputFor
阅读全文
摘要:namenode和secondary namenode中涉及到的主要概念就是 1 元数据 2 fsimage (备份元数据) 3 edits (操作日志) namenode为了快速响应随机访问,所以把元数据放在内存,同时为了防止断电导致元数据丢失,在磁盘上存在一个备份元数据的fsimage。当在内存
阅读全文
摘要:hdfs上的文件是以块为单位进行存储的 大小一般设置为128m,不能太小,也不能太大。 详细情况看以下链接 hdfs块大小设置原因 hdfs的写数据流程 (1)客户端向 NameNode 请求上传文件,NameNode 检查目标文件是否已存在,父目录是否存在。 (2)NameNode 返回是否可以上
阅读全文
摘要:hdfs组成架构有四个组件,分别是namenode,datanode,secondary namenode。 NameNode(nn):就是Master,它 是一个主管、管理者。 (1)管理HDFS的名称空间; (2)配置副本策略; (3)管理数据块(Block)映射信息; (4)处理客户端读写请求
阅读全文
摘要:1. 一个job的Maptask具体个数的确定 https://blog.51cto.com/u_15294985/2999282
阅读全文
摘要:工具需要 1. maven 2.Idea 3 hadoop安装包 4 bin编译完成包 5 jdk包 步骤 1 下载hadoop安装包 https://hadoop.apache.org/ 自行选择需要版本 解压到目标文件夹 比如C:\hadoop 2. 下载版本对应的bin编译完成包 ,自己编译比
阅读全文
摘要:问题原因 尽管每台都设置了/etc/profile文件:用来设置系统环境参数,比如$PATH. 这里面的环境变量是对系统内所有用户生效。但是没有设置~/.bashrc文件,而~/.bashrc文件是针对某一个特定的用户,环境变量的设置只对该用户自己有效。使用bash命令,只要以该用户身份运行命令行就
阅读全文
摘要:在hadoop集群配置搭建完,要使用wordcount 来实现一个小案例 遇到了如下的问题 经过查验,解决办法如下在yarn-site.xml 文件中添加如下property 然后source /etc/profile 生效。
阅读全文
摘要:sbin/start-dfs.sh启动集群出现问题 只需要修改/etc/hadoop/hadoop-env.sh中设JAVA_HOME。 这里是要添加的绝对路径 再次启动问题就解决了
阅读全文
摘要:SSH免密登录原理 1. cd 到家目录 cd /home/xst 执行 ls -al 可以看到隐藏文件.ssh 目前里面只有一个文件 2. ssh-keygen -t rsa 执行后可以看到 .ssh文件下生成 公钥和私钥已经生成 3. 执行ssh-copy-id Hadoop03 把公钥分发给需
阅读全文
摘要:1. hadoop 下载,点击HTTP下载tar包 2.解压完后,配置环境变量 ,在/etc/profile路径下 3.输入hadoop,验证安装完成
阅读全文