随笔分类 - 面试题
摘要:YARN部分 介绍下YARN Yet Another Resource Negotiator,另一种资源协调者,是一种新的 Hadoop 资源管理器它是一个通用资源管理系统,可为上层应用提供统一的资源管理和调度它的引入为集群在利用率、资源统一管理和数据共享等方面带来了巨大好处。 YARN有几个模块
阅读全文
摘要:Hadoop基础 介绍下Hadoop 分布式系统架构。开发分布式程序。利用集群的威力进行高速运算和存储。 Hadoop的特点 高可靠性 高效性 高可扩展性 高容错性 低成本 说下Hadoop生态圈组件及其作用 1,HDFS (分布式文件系统) 2,资源管理器(YARN 和 mesos) 3,mapr
阅读全文
摘要:问题描述: 某APP用户点击日志,列名分别为时间,用户ID,产品代号,点击的功能代号,邮箱,省市,耗时,参数详情。需使用flink批处理进行数据清洗及开窗统计,样例数据如下: data 说明: 数据的列分隔符为逗号,详情参数为json 数据行中存在脏数据 环境: 机器可联网,笔试机器的桌面上有ide
阅读全文
摘要:3-5 10000 100G 30-60 1000 80% 20% 90% 10% 10-20 100-200
阅读全文
摘要:数据开发 离线/实时指标开发 阿里云脚本一次全部调度的问题 数据不规范,数据清洗的问题
阅读全文
摘要:HDFS存入大量小文件,有什么影响? 元数据层面:每个小文件都有一份元数据,其中包括文件路径,文件名,所有者,所属组,权限,创建时间等,这些信息都保存在 Namenode 内存中(大的文件块和小的文件块都占用NameNode150字节的内存)。 所以小文件过多,会占用 Namenode 服务器大量内
阅读全文
摘要:# 定义这个agent中各组件的名字a1.sources = r1a1.sinks = k1a1.channels = c1 # 描述和配置source组件:r1a1.sources.r1.type = execa1.sources.r1.command = tail -F /root/logs/t
阅读全文