CHANG_09

2022年6月24日

改SQL编码格式报错 1366 - Incorrect string value: '\xE8\xAF\xAD' for column 'subject' at row 1

摘要： :3306/aaa?useUnicode=true&characterEncoding=UTF-8 改数据库编码为 utf8： Alter database aaa character set utf8 collate utf8_general_ci; 改表编码为 utf8： Alter table 阅读全文

posted @ 2022-06-24 15:39 CHANG_09 阅读(114) 评论(0) 推荐(0)

2022年6月18日

组合聚合

摘要：聚合： A类的成员变量是B类，通过set方法赋值。组合：A类在new对象的时候，会实例化一个B类的对象来使用。耦合性更强。阅读全文

posted @ 2022-06-18 11:14 CHANG_09 阅读(36) 评论(0) 推荐(0)

2022年6月17日

一、设计模式七大原则

摘要：一、设计模式七大原则设计模式的目的代码重用性 (即：相同功能的代码，不用多次编写)可读性 (即：编程规范性, 便于其他程序员的阅读和理解)可扩展性 (即：当需要增加新的功能时，非常的方便，称为可维护)可靠性 (即：当我们增加新的功能后，对原来的功能没有影响)使程序呈现高内聚，低耦合的特性七大原则阅读全文

posted @ 2022-06-17 08:59 CHANG_09 阅读(41) 评论(0) 推荐(0)

2022年6月16日

练习：Flink面试题

摘要：问题描述：某APP用户点击日志，列名分别为时间，用户ID，产品代号，点击的功能代号，邮箱，省市，耗时，参数详情。需使用flink批处理进行数据清洗及开窗统计，样例数据如下： data 说明：数据的列分隔符为逗号，详情参数为json 数据行中存在脏数据环境：机器可联网，笔试机器的桌面上有ide 阅读全文

posted @ 2022-06-16 16:59 CHANG_09 阅读(187) 评论(0) 推荐(0)

数仓维度建模了解过吗？具体是怎么实现的

摘要：实体表维度表事实表阅读全文

posted @ 2022-06-16 11:11 CHANG_09 阅读(58) 评论(0) 推荐(0)

离线数仓集群配置？每天处理的数据量多大？有多少张表？事实表和维度表各自占比？最多的表有多少个字段？

摘要： 3-5 10000 100G 30-60 1000 80% 20% 90% 10% 10-20 100-200 阅读全文

posted @ 2022-06-16 11:09 CHANG_09 阅读(293) 评论(0) 推荐(0)

你想负责哪一块？遇到难度最大的问题是什么？

摘要：数据开发离线/实时指标开发阿里云脚本一次全部调度的问题数据不规范，数据清洗的问题阅读全文

posted @ 2022-06-16 11:07 CHANG_09 阅读(63) 评论(0) 推荐(0)

hdfs小文件处理 flume

摘要： HDFS存入大量小文件，有什么影响？元数据层面：每个小文件都有一份元数据，其中包括文件路径，文件名，所有者，所属组，权限，创建时间等，这些信息都保存在 Namenode 内存中（大的文件块和小的文件块都占用NameNode150字节的内存）。所以小文件过多，会占用 Namenode 服务器大量内阅读全文

posted @ 2022-06-16 11:00 CHANG_09 阅读(113) 评论(0) 推荐(0)

日志数据 flume日志到 kafka的脚本

摘要： # 定义这个agent中各组件的名字a1.sources = r1a1.sinks = k1a1.channels = c1 # 描述和配置source组件：r1a1.sources.r1.type = execa1.sources.r1.command = tail -F /root/logs/t 阅读全文

posted @ 2022-06-16 10:56 CHANG_09 阅读(62) 评论(0) 推荐(0)

Hadoop MapReduce作业执行流程

摘要：整个 Hadoop MapReduce 的作业执行流程如图 1 所示，共分为 10 步。图 1 Hadoop MapReduce的作业执行流程 1. 提交作业客户端向 JobTracker 提交作业。首先，用户需要将所有应该配置的参数根据需求配置好。作业提交之后，就会进入自动化执行。在这个过程中阅读全文

posted @ 2022-06-16 10:53 CHANG_09 阅读(347) 评论(0) 推荐(0)

公告