摘要:
Vol.1 实时数仓的发展 在早期也有部分公司有实时计算的需求,但是数据量比较少,所以在实时方面无法形成完整的体系,实时数仓更多是以实时计算的形式存在,作为离线数仓的辅助,主要使用的技术也是Storm或Spark Streaming。基本所有的实时任务都是具体问题具体分析,来一个需求做一个,基本不考 阅读全文
2021年11月26日 #
2021年11月16日 #
摘要:
一、Flink-CDC 2.0 Flink CDC Connectors 是 Apache Flink 的一个 source 端的连接器,目前 2.0 版本支持从 MySQL 以及 Postgres 两种数据源中获取数据,2.1 版本社区确定会支持 Oracle,MongoDB 数据源。 Fink 阅读全文
2021年11月15日 #
摘要:
简单说,分布式是以缩短单个任务的执行时间来提升效率的,而集群则是通过提高单位时间内执行的任务数来提升效率。 例如: 如果一个任务由10个子任务组成,每个子任务单独执行需1小时,则在一台服务器上执行改任务需10小时。 采用分布式方案,提供10台服务器,每台服务器只负责处理一个子任务,不考虑子任务间的依 阅读全文
摘要:
“戒备”与“偏见” 几年前,我所在的一家传统行业的头部企业启动了一系列数字化转型项目,在配套的 IT 基础设施建设上,“上云”已是大势所趋。 在此前数年的工作中,我断断续续地使用着公有云产品,大多数情况下,我们只选择 IaaS 层级的服务,也就是只使用虚拟实例,对 PaaS 和云平台特定的 Serv 阅读全文
2021年11月12日 #
摘要:
https://blog.csdn.net/h335146502/article/details/106434544/?utm_medium=distribute.pc_relevant.none-task-blog-2~default~baidujs_baidulandingword~defaul 阅读全文
摘要:
https://blog.csdn.net/penriver/article/details/120563186?spm=1001.2101.3001.6650.5&utm_medium=distribute.pc_relevant.none-task-blog-2%7Edefault%7ECTRL 阅读全文
2021年10月30日 #
摘要:
背景 技术管理者(技术总监/经理/CTO)期望通过体系化的管理方式建设,能够在百人,千人以上的团队中有效的构建聚焦目标,自我成长,高效能的研发作战团队,快速拿出成果,支撑业务的快速发展。 痛点 从小团队人员快速扩张,团队文化稀释,人员效能下降,目标逐渐弱化。 各自团队管理方式及标准不统一,人员管理及 阅读全文
2021年10月29日 #
摘要:
产品 产品内部需要先进行需求评审,确定需求后,才能跟技术进行需求宣讲; 需求宣讲前,至少提前1天把需要宣讲的需求发出来,通知测试和开发宣讲时间和地点; 需求宣讲后,测试和开发有疑问,产品需进行Q&A,维护到对应需求文档上,并及时更新需求; 需求宣讲完成,原则上不允许进行需求变动;如果进行需求变动,需 阅读全文
2021年10月28日 #
摘要:
1.1用快照采样状态 理解状态,状态可以指一段时间内某个事实的汇总,比如说近一个月用户下单汇总金额,这就是一个状态值,当天计算的近一个月的下单汇总金额状态,一旦插入不可改变,也可以指某个事实的最终状态值,这里的最终一般是指当天最晚的时间点,比如日期末库存,就是一个按天为周期,库存值就是当天最后的一个 阅读全文
摘要:
一:事实表的特性 粒度: 事实表中一条记录所表达的业务细节程度被称为粒度。通常粒度可以通过两种方式来表述:一种是维度属性组合所表示的细节程度:一种是所表示的具体业务含义。 事实: 事实表当中最为重要的特性就是事实了,即在特定环境下的度量值,一般分为这几类:可加性:可加性事实是指可以按照与事实表关联的 阅读全文