Hadoop - 随笔分类 - 玩转大数据

Hadoop HDFS负载均衡

摘要：Hadoop 分布式文件系统（Hadoop Distributed File System），简称 HDFS，被设计成适合运行在通用硬件上的分布式文件系统。它和现有的分布式文件系统有很多的共同点。HDFS 是一个高容错性的文件系统，提供高吞吐量的数据访问，非常适合大规模数据集上的应用。 HDFS副本阅读全文

posted @ 2022-11-01 19:19 玩转大数据阅读(668) 评论(0) 推荐(0)

yarn运行原理

摘要：服务功能 ResouceManager： 1、处理客户端的请求 2、启动和监控ApplicationMaster 3、监控nodemanager 4、资源的分配和调度 Nodemanager 1、处理单个节点的资源管理 2、处理来自ResouceManager的命令 3、处理来自Applicatio 阅读全文

posted @ 2020-03-31 20:12 玩转大数据阅读(186) 评论(0) 推荐(0)

怎么识别datanode stale了？

摘要：DataNode职责：存储管理用户的文件块数据定期向namenode汇报自身所持有的block信息（通过心跳信息上报）（这点很重要，因为，当集群中发生某些block副本失效时，集群如何恢复block初始副本数量的问题）当一个datanode满足如下条件时被认为是stale了：当一台data 阅读全文

posted @ 2020-03-31 14:33 玩转大数据阅读(1457) 评论(0) 推荐(0)

Yarn的三种资源调度器

摘要：在Yarn框架中，调度器是一块很重要的内容。有了合适的调度规则，就可以保证多个应用可以在同一时间有条不紊的工作。最原始的调度规则就是FIFO，即按照用户提交任务的时间来决定哪个任务先执行，但是这样很可能一个大任务独占资源，其他的资源需要不断的等待。也可能一堆小任务占用资源，大任务一直无法得到适当的资阅读全文

posted @ 2020-03-31 14:14 玩转大数据阅读(1302) 评论(0) 推荐(0)

大数据面试题

摘要：一、.hdfs写文件的步骤答案： (1)client向NameNode申请上传…/xxx.txt文件 (2)NN向client响应可以上传文件 (3)Client向NameNode申请DataNode (4)NN向Client返回DN1,DN2,DN3 (5)Client向DN1,DN2,DN3申阅读全文

posted @ 2019-12-14 18:59 玩转大数据阅读(209) 评论(0) 推荐(0)

HDFS常用命令

摘要：（1）列出HDFS下的文件 hadoop dfs -ls <目录> （2）上传文件将Linux系统本地文件上传到HDFS中 hadoop dfs -put <本地文件> <HDFS文件> （3）下载文件将HDFS 中的文件下载到Linux系统本地目录 hadoop dfs -get <HDFS文阅读全文

posted @ 2019-12-03 21:03 玩转大数据阅读(318) 评论(0) 推荐(0)

查看集群基本情况

摘要：hdfs fsck / Connecting to namenode via http://localhost:9870/fsck?ugi=liugen&path=%2FFSCK started by liugen (auth:SIMPLE) from /127.0.0.1 for path / a 阅读全文

posted @ 2019-11-20 10:02 玩转大数据阅读(723) 评论(0) 推荐(0)

大数据常用组件端口号

摘要：常见端口汇总：Hadoop： 50070：HDFS WEB UI端口 8020 ：高可用的HDFS RPC端口 9000 ：非高可用的HDFS RPC端口 8088 ： Yarn 的WEB UI 接口 8485 ： JournalNode 的RPC端口 8019 ： ZKFC端口 19888：j 阅读全文

posted @ 2019-11-18 19:35 玩转大数据阅读(744) 评论(0) 推荐(0)

Hadoop Shell命令

摘要：FS Shell 调用文件系统(FS)Shell命令应使用 bin/hadoop fs <args>的形式。所有的的FS shell命令使用URI路径作为参数。URI格式是scheme://authority/path。对HDFS文件系统，scheme是hdfs，对本地文件系统，scheme是fi 阅读全文

posted @ 2019-11-18 19:20 玩转大数据阅读(982) 评论(0) 推荐(0)

mr的partition分区

摘要：1、Partitioner 组件通过让 Map 对 Key 进行分区，从而将不同分区的 Key 交由不同的 Reduce 处理。Partition属于map端 2、分区的总数与任务的reduce任务数相同 partitioner定义： partitioner的作用是将mapper 输出的key/va 阅读全文

posted @ 2019-11-12 19:32 玩转大数据阅读(1413) 评论(0) 推荐(0)

HDFS命令

摘要：Hdfs dfs -cat path hadoop fs - 等同 1 -ls 查看当前目录的文件和文件夹 2 -lsr 递归查看 3 -du 查看文件的大小 4-dus 查看文件夹中所有的文件大小 5-Count 统计数量文件夹文件文件大小总和 6-Mv:移动改名移动文件夹 7 -cp 阅读全文

posted @ 2019-04-10 20:59 玩转大数据阅读(790) 评论(0) 推荐(0)

hadoop全分布式的搭建

摘要：修改主机名：vim /etc/sysconfig/network 1 修改 hadoop-env.sh 2 修改core-site.xml /hadoop/tmpdir: 产生 namenode中fsimasage 和edits文件合并元数据 3 修改 hdfs-site.xml 4 yarn-s 阅读全文

posted @ 2019-04-10 09:03 玩转大数据阅读(323) 评论(0) 推荐(0)

hadoop伪分布式环境搭建

摘要：安装伪分布式流程 1.关防火墙 2.设置IP地址 3.设置network文件hosts映射文件 4.安装jdk 5.安装hadoop 6.配置hadoop: hadoop-env.sh、core-site.xml、hdfs-site.xml、 Mapred-site.xml、yarn-site.xm 阅读全文

posted @ 2019-04-04 16:14 玩转大数据阅读(248) 评论(0) 推荐(0)

随笔分类 - Hadoop

公告