摘要: 【大数据如何进大厂】 一、为何要进大厂? 体现最明显的是: 第一点:薪水待遇丰厚,到时年终时可以获得非常不错的年终奖;享受更好的福利待遇。以我周围的例子,普遍都是 16~24 薪水;同时住房公积金、社保都是全面超越大部分公司; 第二点:技术提升快,可以和一线大牛交流学习,也能得到他们的指导,以及随处 阅读全文
posted @ 2022-02-23 14:45 focusbigdata 阅读(150) 评论(1) 推荐(0) 编辑
摘要: 心累的时候不妨停下来休息一下,好好收拾一下情绪在继续前进 Federation架构设计 1. NameNode架构的局限性 (1)Namespace(命名空间)的限制 ​ 由于NameNode在内存中存储所有的元数据(metadata),因此单个NameNode所能存储的对象(文件+块)数目受到Na 阅读全文
posted @ 2020-07-16 16:32 focusbigdata 阅读(294) 评论(0) 推荐(0) 编辑
摘要: 放弃很简单,但坚持一定很酷 YARN-HA集群配置 YARN-HA工作机制 1.官方文档 http://hadoop.apache.org/docs/r2.7.2/hadoop-yarn/hadoop-yarn-site/ResourceManagerHA.html 2.工作机制图 其实就是配置多台 阅读全文
posted @ 2020-07-15 16:23 focusbigdata 阅读(292) 评论(0) 推荐(0) 编辑
摘要: 保持自己的节奏前进就对了 HDFDS-HA集群配置 (一)环境准备 修改IP 修改主机名及主机名和IP地址的映射 关闭防火墙 ssh免密登录 安装JDK,配置环境变量等 (二)规划集群 看出我们将NameNode分布到两台机器上,保证集群的高可用性 hadoop102 hadoop103 hadoo 阅读全文
posted @ 2020-07-13 09:11 focusbigdata 阅读(663) 评论(0) 推荐(1) 编辑
摘要: 先达到极限,然后再突破它 HA高可用 HA概述 所谓HA(High Available),即高可用(7*24小时不中断服务)。 实现高可用最关键的策略是消除单点故障。HA严格来说应该分成各个组件的HA机制:HDFS的HA和YARN的HA。 Hadoop2.0之前,在HDFS集群中NameNode存在 阅读全文
posted @ 2020-07-10 16:34 focusbigdata 阅读(258) 评论(0) 推荐(0) 编辑
摘要: 答应我一次做好一件事情就可以了 DataNode相关概念 DataNode工作机制 一个数据块在DataNode上以文件形式存储在磁盘上,包括两个文件,一个是数据本身,一个是元数据包括数据块的长度,块数据的校验和,以及时间戳。 DataNode启动后向NameNode注册,通过后,周期性(1小时)的 阅读全文
posted @ 2020-07-09 10:39 focusbigdata 阅读(381) 评论(0) 推荐(0) 编辑
摘要: 一个微小的投入就会带来巨大的突变 集群安全模式 为什么出现集群安全模式呢? ​ Namenode启动时,首先将镜像文件载人内存,并执行编辑日志中的各项操作。一旦在內存中成功建立文件系统元数据的映像,则创建一个新的Fsimage文件和一个空的编辑日志。此时,** Namenode开始监听Datanod 阅读全文
posted @ 2020-07-08 17:45 focusbigdata 阅读(226) 评论(0) 推荐(0) 编辑
摘要: 记住,你的记忆效率=线索数量*线索质量 NameNode故障处理 问题场景:只配置了一个NameNode作为主节点,当它宕掉后如何恢复数据呢? 方法一:拷贝SNN数据到NN存储数据的目录中 kill -9 NameNode进程 删除NameNode存储的数据(/opt/module/hadoop-2 阅读全文
posted @ 2020-07-08 10:00 focusbigdata 阅读(345) 评论(0) 推荐(0) 编辑
摘要: 对未来真正的慷慨,是把一切献给现在 NameNode和SecondaryNameNode工作机制 第一阶段:NameNode启动 (1)第一次启动NameNode格式化后,创建Fsimage和Edits文件。如果不是第一次启动,直接加载编辑日志和镜像文件到内存。 Fsimage文件(镜像文件):HD 阅读全文
posted @ 2020-07-07 16:00 focusbigdata 阅读(266) 评论(0) 推荐(0) 编辑
摘要: 不断关联,不断加入,不断迭代,不断应用 HDFS数据读写流程 HDFS写数据流程 客户端通过Distributed FileSystem模块向NameNode请求上传文件,NameNode检查目标文件是否已存在,父目录是否存在。 NameNode返回是否可以上传。 客户端请求第一个 Block上传到 阅读全文
posted @ 2020-07-07 09:34 focusbigdata 阅读(252) 评论(0) 推荐(0) 编辑