面试题 - 随笔分类 - CHANG_09

大数据面试题V3.0 -- YARN部分

摘要：YARN部分介绍下YARN Yet Another Resource Negotiator，另一种资源协调者,是一种新的 Hadoop 资源管理器它是一个通用资源管理系统，可为上层应用提供统一的资源管理和调度它的引入为集群在利用率、资源统一管理和数据共享等方面带来了巨大好处。 YARN有几个模块阅读全文

posted @ 2022-06-28 14:58 CHANG_09 阅读(432) 评论(0) 推荐(0)

大数据面试题V3.0 -- Hadoop基础

摘要：Hadoop基础介绍下Hadoop 分布式系统架构。开发分布式程序。利用集群的威力进行高速运算和存储。 Hadoop的特点高可靠性高效性高可扩展性高容错性低成本说下Hadoop生态圈组件及其作用 1，HDFS (分布式文件系统） 2，资源管理器（YARN 和 mesos） 3，mapr 阅读全文

posted @ 2022-06-28 11:30 CHANG_09 阅读(290) 评论(0) 推荐(0)

练习：Flink面试题

摘要：问题描述：某APP用户点击日志，列名分别为时间，用户ID，产品代号，点击的功能代号，邮箱，省市，耗时，参数详情。需使用flink批处理进行数据清洗及开窗统计，样例数据如下： data 说明：数据的列分隔符为逗号，详情参数为json 数据行中存在脏数据环境：机器可联网，笔试机器的桌面上有ide 阅读全文

posted @ 2022-06-16 16:59 CHANG_09 阅读(181) 评论(0) 推荐(0)

数仓维度建模了解过吗？具体是怎么实现的

摘要：实体表维度表事实表阅读全文

posted @ 2022-06-16 11:11 CHANG_09 阅读(55) 评论(0) 推荐(0)

离线数仓集群配置？每天处理的数据量多大？有多少张表？事实表和维度表各自占比？最多的表有多少个字段？

摘要：3-5 10000 100G 30-60 1000 80% 20% 90% 10% 10-20 100-200 阅读全文

posted @ 2022-06-16 11:09 CHANG_09 阅读(290) 评论(0) 推荐(0)

你想负责哪一块？遇到难度最大的问题是什么？

摘要：数据开发离线/实时指标开发阿里云脚本一次全部调度的问题数据不规范，数据清洗的问题阅读全文

posted @ 2022-06-16 11:07 CHANG_09 阅读(63) 评论(0) 推荐(0)

hdfs小文件处理 flume

摘要：HDFS存入大量小文件，有什么影响？元数据层面：每个小文件都有一份元数据，其中包括文件路径，文件名，所有者，所属组，权限，创建时间等，这些信息都保存在 Namenode 内存中（大的文件块和小的文件块都占用NameNode150字节的内存）。所以小文件过多，会占用 Namenode 服务器大量内阅读全文

posted @ 2022-06-16 11:00 CHANG_09 阅读(109) 评论(0) 推荐(0)

日志数据 flume日志到 kafka的脚本

摘要：# 定义这个agent中各组件的名字a1.sources = r1a1.sinks = k1a1.channels = c1 # 描述和配置source组件：r1a1.sources.r1.type = execa1.sources.r1.command = tail -F /root/logs/t 阅读全文

posted @ 2022-06-16 10:56 CHANG_09 阅读(61) 评论(0) 推荐(0)

CHANG_09

随笔分类 - 面试题

公告