随笔分类 -  Hadoop

摘要:Hadoop 分布式文件系统(Hadoop Distributed File System),简称 HDFS,被设计成适合运行在通用硬件上的分布式文件系统。它和现有的分布式文件系统有很多的共同点。HDFS 是一个高容错性的文件系统,提供高吞吐量的数据访问,非常适合大规模数据集上的应用。 HDFS副本 阅读全文
posted @ 2022-11-01 19:19 玩转大数据 阅读(570) 评论(0) 推荐(0) 编辑
摘要:服务功能 ResouceManager: 1、处理客户端的请求 2、启动和监控ApplicationMaster 3、监控nodemanager 4、资源的分配和调度 Nodemanager 1、处理单个节点的资源管理 2、处理来自ResouceManager的命令 3、处理来自Applicatio 阅读全文
posted @ 2020-03-31 20:12 玩转大数据 阅读(176) 评论(0) 推荐(0) 编辑
摘要:DataNode职责: 存储管理用户的文件块数据 定期向namenode汇报自身所持有的block信息(通过心跳信息上报) (这点很重要,因为,当集群中发生某些block副本失效时,集群如何恢复block初始副本数量的问题) 当一个datanode满足如下条件时被认为是stale了: 当一台data 阅读全文
posted @ 2020-03-31 14:33 玩转大数据 阅读(1391) 评论(0) 推荐(0) 编辑
摘要:在Yarn框架中,调度器是一块很重要的内容。有了合适的调度规则,就可以保证多个应用可以在同一时间有条不紊的工作。最原始的调度规则就是FIFO,即按照用户提交任务的时间来决定哪个任务先执行,但是这样很可能一个大任务独占资源,其他的资源需要不断的等待。也可能一堆小任务占用资源,大任务一直无法得到适当的资 阅读全文
posted @ 2020-03-31 14:14 玩转大数据 阅读(1193) 评论(0) 推荐(0) 编辑
摘要:一、.hdfs写文件的步骤 答案: (1)client向NameNode申请上传…/xxx.txt文件 (2)NN向client响应可以上传文件 (3)Client向NameNode申请DataNode (4)NN向Client返回DN1,DN2,DN3 (5)Client向DN1,DN2,DN3申 阅读全文
posted @ 2019-12-14 18:59 玩转大数据 阅读(189) 评论(0) 推荐(0) 编辑
摘要:(1)列出HDFS下的文件 hadoop dfs -ls <目录> (2)上传文件 将Linux系统本地文件上传到HDFS中 hadoop dfs -put <本地文件> <HDFS文件> (3)下载文件 将HDFS 中的文件下载到Linux系统本地目录 hadoop dfs -get <HDFS文 阅读全文
posted @ 2019-12-03 21:03 玩转大数据 阅读(284) 评论(0) 推荐(0) 编辑
摘要:hdfs fsck / Connecting to namenode via http://localhost:9870/fsck?ugi=liugen&path=%2FFSCK started by liugen (auth:SIMPLE) from /127.0.0.1 for path / a 阅读全文
posted @ 2019-11-20 10:02 玩转大数据 阅读(701) 评论(0) 推荐(0) 编辑
摘要:常见端口汇总:Hadoop: 50070:HDFS WEB UI端口 8020 : 高可用的HDFS RPC端口 9000 : 非高可用的HDFS RPC端口 8088 : Yarn 的WEB UI 接口 8485 : JournalNode 的RPC端口 8019 : ZKFC端口 19888:j 阅读全文
posted @ 2019-11-18 19:35 玩转大数据 阅读(668) 评论(0) 推荐(0) 编辑
摘要:FS Shell 调用文件系统(FS)Shell命令应使用 bin/hadoop fs <args>的形式。 所有的的FS shell命令使用URI路径作为参数。URI格式是scheme://authority/path。对HDFS文件系统,scheme是hdfs,对本地文件系统,scheme是fi 阅读全文
posted @ 2019-11-18 19:20 玩转大数据 阅读(931) 评论(0) 推荐(0) 编辑
摘要:1、Partitioner 组件通过让 Map 对 Key 进行分区,从而将不同分区的 Key 交由不同的 Reduce 处理。Partition属于map端 2、分区的总数与任务的reduce任务数相同 partitioner定义: partitioner的作用是将mapper 输出的key/va 阅读全文
posted @ 2019-11-12 19:32 玩转大数据 阅读(1362) 评论(0) 推荐(0) 编辑
摘要:Hdfs dfs -cat path hadoop fs - 等同 1 -ls 查看当前目录的文件和文件夹 2 -lsr 递归查看 3 -du 查看文件的大小 4-dus 查看文件夹中所有的文件大小 5-Count 统计数量 文件夹 文件 文件大小总和 6-Mv:移动 改名 移动文件夹 7 -cp 阅读全文
posted @ 2019-04-10 20:59 玩转大数据 阅读(767) 评论(0) 推荐(0) 编辑
摘要:修改主机名:vim /etc/sysconfig/network 1 修改 hadoop-env.sh 2 修改core-site.xml /hadoop/tmpdir: 产生 namenode中fsimasage 和edits文件 合并元数据 3 修改 hdfs-site.xml 4 yarn-s 阅读全文
posted @ 2019-04-10 09:03 玩转大数据 阅读(311) 评论(0) 推荐(0) 编辑
摘要:安装伪分布式流程 1.关防火墙 2.设置IP地址 3.设置network文件hosts映射文件 4.安装jdk 5.安装hadoop 6.配置hadoop: hadoop-env.sh、core-site.xml、hdfs-site.xml、 Mapred-site.xml、yarn-site.xm 阅读全文
posted @ 2019-04-04 16:14 玩转大数据 阅读(219) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示