摘要:
![](https://img2024.cnblogs.com/blog/3417438/202406/3417438-20240625154213820-1109941778.png) 阅读全文
摘要:
一、 离线数仓 应用:大屏、驾驶舱、商品分析、销售订单分析、BI平台、供应链仓储运单分析、门店经营分析、用户画像。 电商业务表 1. 建模理论 ER模型 :实体关系 3NF 数据冗余低 保障数据一致性 面向对象设计 主外键 不适合统计分析 ODS层 维度模型 :星型模型 建表&SQL 数据统计:汇总 阅读全文
摘要:
一、 基础查询 sublime 格式化 ctrl+k ctrl+f -- 创建学生表 DROP TABLE IF EXISTS student_info; create table if not exists student_info( stu_id string COMMENT '学生id', s 阅读全文
摘要:
1. IO模型 2. 网络编程 IO调用分2个阶段:数据准备、数据copy. BIO:同步阻塞,一个连接一个线程,第一阶段等待,直到有数据了,该线程copy并返回,等到的过程一直浪费资源,优化:用连接池多线程,不用新建、销毁线程,直接拿池子里现成的。 NIO: 同步非阻塞,多个连接注册到多路复用器S 阅读全文
摘要:
1. 2024/5/10:太平洋房屋 1面 1.kafka怎么保证分区间有序 ①.Key-based Partitioning,指定相同key的消息会被路由到同一个分区 ②.自定义分区器 2.paimon合并机制 3.指标体系的理解 4.运维换磁盘怎么保证集群任务不挂 distcp https:// 阅读全文
摘要:
1.Git #生成密钥 ssh-keygen -t ed25519 -C "邮箱" 2.Linux命令 2.1 vim # 一般模式 i/I/a/A/o/O yy 复制光标当前一行 y3y 复制3行 p 粘贴 u 撤销上一步 dd 删除当前行 d3d 删除3行 x 剪切一个字母,相当于del yw 阅读全文
摘要:
1.数据湖三足鼎立 https://cloud.tencent.com/developer/article/2397256 什么是数据湖? 集中的存储 多种格式的数据源无需结构化处理 不同类型的分析加工 为什么需要? lambda架构 基于hive的离线+基于kafka的实时 两条链路数据不一致 批 阅读全文
摘要:
1. 整体架构 2. 安装部署 2.1 资源规划 实例名称 端口名称 默认端口 通信方式 说明 FE http_port 8030 -> 8034 用户/FE<--> FE FE上的http端口 web管理界面 BE webserver_port 8040 -> 8041 BE<-->FE BE上的 阅读全文
摘要:
1.集群有2个flink版本,用application方式启动报错 Caused by: java.lang.ClassCastException: cannot assign instance of org.apache.commons.collections.map.LinkedMap to f 阅读全文
摘要:
背景 : 腾讯云EMR集群只有主节点master1可以访问外网,其他计算节点间互通,但是不能访问外网。现在有一个flink需求是调用外网接口,在计算节点运行程序会报超时连接。 解决: 通过配置代理,将计算节点上的外网请求转发到主节点master1上,统一通过master1访问。 https://cl 阅读全文