博客园 首页 私信博主 显示目录 隐藏目录 管理 动画
摘要: 问题描述: 某APP用户点击日志,列名分别为时间,用户ID,产品代号,点击的功能代号,邮箱,省市,耗时,参数详情。需使用flink批处理进行数据清洗及开窗统计,样例数据如下: data 说明: 数据的列分隔符为逗号,详情参数为json 数据行中存在脏数据 环境: 机器可联网,笔试机器的桌面上有ide 阅读全文
posted @ 2022-06-16 16:59 CHANG_09 阅读(134) 评论(0) 推荐(0) 编辑
摘要: 实体表 维度表 事实表 阅读全文
posted @ 2022-06-16 11:11 CHANG_09 阅读(42) 评论(0) 推荐(0) 编辑
摘要: 3-5 10000 100G 30-60 1000 80% 20% 90% 10% 10-20 100-200 阅读全文
posted @ 2022-06-16 11:09 CHANG_09 阅读(250) 评论(0) 推荐(0) 编辑
摘要: 数据开发 离线/实时指标开发 阿里云脚本一次全部调度的问题 数据不规范,数据清洗的问题 阅读全文
posted @ 2022-06-16 11:07 CHANG_09 阅读(43) 评论(0) 推荐(0) 编辑
摘要: HDFS存入大量小文件,有什么影响? 元数据层面:每个小文件都有一份元数据,其中包括文件路径,文件名,所有者,所属组,权限,创建时间等,这些信息都保存在 Namenode 内存中(大的文件块和小的文件块都占用NameNode150字节的内存)。 所以小文件过多,会占用 Namenode 服务器大量内 阅读全文
posted @ 2022-06-16 11:00 CHANG_09 阅读(82) 评论(0) 推荐(0) 编辑
摘要: # 定义这个agent中各组件的名字a1.sources = r1a1.sinks = k1a1.channels = c1 # 描述和配置source组件:r1a1.sources.r1.type = execa1.sources.r1.command = tail -F /root/logs/t 阅读全文
posted @ 2022-06-16 10:56 CHANG_09 阅读(42) 评论(0) 推荐(0) 编辑
摘要: 整个 Hadoop MapReduce 的作业执行流程如图 1 所示,共分为 10 步。 图 1 Hadoop MapReduce的作业执行流程 1. 提交作业 客户端向 JobTracker 提交作业。首先,用户需要将所有应该配置的参数根据需求配置好。作业提交之后,就会进入自动化执行。在这个过程中 阅读全文
posted @ 2022-06-16 10:53 CHANG_09 阅读(277) 评论(0) 推荐(0) 编辑
摘要: Hadoop MapReduce 的 Shuffle 阶段是指从 Map 的输出开始,包括系统执行排序,以及传送 Map 输出到 Reduce 作为输入的过程。排序阶段是指对 Map 端输出的 Key 进行排序的过程。不同的 Map 可能输出相同的 Key,相同的 Key 必须发送到同一个 Redu 阅读全文
posted @ 2022-06-16 10:35 CHANG_09 阅读(105) 评论(0) 推荐(0) 编辑