2022 年 6月 16 日随笔档案 - CHANG_09

2022年6月16日

摘要：问题描述：某APP用户点击日志，列名分别为时间，用户ID，产品代号，点击的功能代号，邮箱，省市，耗时，参数详情。需使用flink批处理进行数据清洗及开窗统计，样例数据如下： data 说明：数据的列分隔符为逗号，详情参数为json 数据行中存在脏数据环境：机器可联网，笔试机器的桌面上有ide 阅读全文

posted @ 2022-06-16 16:59 CHANG_09 阅读(134) 评论(0) 推荐(0) 编辑

数仓维度建模了解过吗？具体是怎么实现的

摘要：实体表维度表事实表阅读全文

posted @ 2022-06-16 11:11 CHANG_09 阅读(42) 评论(0) 推荐(0) 编辑

离线数仓集群配置？每天处理的数据量多大？有多少张表？事实表和维度表各自占比？最多的表有多少个字段？

摘要： 3-5 10000 100G 30-60 1000 80% 20% 90% 10% 10-20 100-200 阅读全文

posted @ 2022-06-16 11:09 CHANG_09 阅读(250) 评论(0) 推荐(0) 编辑

你想负责哪一块？遇到难度最大的问题是什么？

摘要：数据开发离线/实时指标开发阿里云脚本一次全部调度的问题数据不规范，数据清洗的问题阅读全文

posted @ 2022-06-16 11:07 CHANG_09 阅读(43) 评论(0) 推荐(0) 编辑

hdfs小文件处理 flume

摘要： HDFS存入大量小文件，有什么影响？元数据层面：每个小文件都有一份元数据，其中包括文件路径，文件名，所有者，所属组，权限，创建时间等，这些信息都保存在 Namenode 内存中（大的文件块和小的文件块都占用NameNode150字节的内存）。所以小文件过多，会占用 Namenode 服务器大量内阅读全文

posted @ 2022-06-16 11:00 CHANG_09 阅读(82) 评论(0) 推荐(0) 编辑

日志数据 flume日志到 kafka的脚本

摘要： # 定义这个agent中各组件的名字a1.sources = r1a1.sinks = k1a1.channels = c1 # 描述和配置source组件：r1a1.sources.r1.type = execa1.sources.r1.command = tail -F /root/logs/t 阅读全文

posted @ 2022-06-16 10:56 CHANG_09 阅读(42) 评论(0) 推荐(0) 编辑

Hadoop MapReduce作业执行流程

摘要：整个 Hadoop MapReduce 的作业执行流程如图 1 所示，共分为 10 步。图 1 Hadoop MapReduce的作业执行流程 1. 提交作业客户端向 JobTracker 提交作业。首先，用户需要将所有应该配置的参数根据需求配置好。作业提交之后，就会进入自动化执行。在这个过程中阅读全文

posted @ 2022-06-16 10:53 CHANG_09 阅读(277) 评论(0) 推荐(0) 编辑

HadoopMapReduce 的 Shuffle 阶段

摘要： Hadoop MapReduce 的 Shuffle 阶段是指从 Map 的输出开始，包括系统执行排序，以及传送 Map 输出到 Reduce 作为输入的过程。排序阶段是指对 Map 端输出的 Key 进行排序的过程。不同的 Map 可能输出相同的 Key，相同的 Key 必须发送到同一个 Redu 阅读全文

posted @ 2022-06-16 10:35 CHANG_09 阅读(105) 评论(0) 推荐(0) 编辑

CHANG_09

公告