博客园 首页 私信博主 显示目录 隐藏目录 管理 动画

随笔分类 -  面试题

摘要:YARN部分 介绍下YARN Yet Another Resource Negotiator,另一种资源协调者,是一种新的 Hadoop 资源管理器它是一个通用资源管理系统,可为上层应用提供统一的资源管理和调度它的引入为集群在利用率、资源统一管理和数据共享等方面带来了巨大好处。 YARN有几个模块 阅读全文
posted @ 2022-06-28 14:58 CHANG_09 阅读(363) 评论(0) 推荐(0) 编辑
摘要:Hadoop基础 介绍下Hadoop 分布式系统架构。开发分布式程序。利用集群的威力进行高速运算和存储。 Hadoop的特点 高可靠性 高效性 高可扩展性 高容错性 低成本 说下Hadoop生态圈组件及其作用 1,HDFS (分布式文件系统) 2,资源管理器(YARN 和 mesos) 3,mapr 阅读全文
posted @ 2022-06-28 11:30 CHANG_09 阅读(236) 评论(0) 推荐(0) 编辑
摘要:问题描述: 某APP用户点击日志,列名分别为时间,用户ID,产品代号,点击的功能代号,邮箱,省市,耗时,参数详情。需使用flink批处理进行数据清洗及开窗统计,样例数据如下: data 说明: 数据的列分隔符为逗号,详情参数为json 数据行中存在脏数据 环境: 机器可联网,笔试机器的桌面上有ide 阅读全文
posted @ 2022-06-16 16:59 CHANG_09 阅读(138) 评论(0) 推荐(0) 编辑
摘要:实体表 维度表 事实表 阅读全文
posted @ 2022-06-16 11:11 CHANG_09 阅读(43) 评论(0) 推荐(0) 编辑
摘要:数据开发 离线/实时指标开发 阿里云脚本一次全部调度的问题 数据不规范,数据清洗的问题 阅读全文
posted @ 2022-06-16 11:07 CHANG_09 阅读(44) 评论(0) 推荐(0) 编辑
摘要:HDFS存入大量小文件,有什么影响? 元数据层面:每个小文件都有一份元数据,其中包括文件路径,文件名,所有者,所属组,权限,创建时间等,这些信息都保存在 Namenode 内存中(大的文件块和小的文件块都占用NameNode150字节的内存)。 所以小文件过多,会占用 Namenode 服务器大量内 阅读全文
posted @ 2022-06-16 11:00 CHANG_09 阅读(84) 评论(0) 推荐(0) 编辑
摘要:# 定义这个agent中各组件的名字a1.sources = r1a1.sinks = k1a1.channels = c1 # 描述和配置source组件:r1a1.sources.r1.type = execa1.sources.r1.command = tail -F /root/logs/t 阅读全文
posted @ 2022-06-16 10:56 CHANG_09 阅读(45) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示