随笔分类 -  大数据

ETL工具、大数据应用
摘要:前端埋点数据采集(二)mock应用系统10万条前端埋点数据 上一期我们分享了前端埋点数据采集(一)采集系统架构设计 我们说应用系统的数据,采集到大数据平台来,然后再到数仓。但是很多实际场景是应用系统、大数据平台、数仓平台各自并没有完成系统的搭建和开发。 假设现在一个场景是:应用系统javaweb并未 阅读全文
posted @ 2024-05-06 18:09 爵岚 阅读(216) 评论(1) 推荐(0) 编辑
摘要:前几次内容分享,我们逐步搭建了传统hadoop大数据平台、zookeeper、kafka集群等。 假设现在一个场景是:今天产品经理提了1个优先级极高的需求:应用系统前端埋点数据都需要被采集到大数据平台hadoop上。 “前端埋点数据的采集系列”,主要分为以下5个部分: 一、采集系统架构设计 二、mo 阅读全文
posted @ 2024-05-06 17:53 爵岚 阅读(313) 评论(0) 推荐(0) 编辑
摘要:前几次内容分享,我们一共做了三件事: 1.逐步搭建了传统hadoop大数据平台包括zookeeper、kafka、flume集群 2.采集前端埋点到hdfs 3.采集业务数据到hdfs 这样数据都采集到HDFS上了,其实就是到了数仓了! 数据采集请看以下链接: 前端埋点数据采集系列 一、采集系统架构 阅读全文
posted @ 2024-05-06 17:46 爵岚 阅读(284) 评论(0) 推荐(0) 编辑
摘要:通过前面内容分享,我们讲解了数仓建模的概念、理论、OLTP、OLAP、以及ODS、DIM、DWD、DWS、DWT、ADS层简单搭建。涉及的内容非常多,这节我们捋一捋数仓建模的步骤、以及数仓分层思路、五层每层的设计、处理、加载等总结一下。 一、建模步骤 1、关于数仓的建模有两种基本的模型: 关系建模( 阅读全文
posted @ 2024-04-28 16:08 爵岚 阅读(6229) 评论(0) 推荐(0) 编辑
摘要:一. DataX3.0概览 ​ DataX 是一个异构数据源离线同步工具,致力于实现包括关系型数据库(MySQL、Oracle等)、HDFS、Hive、ODPS、HBase、FTP等各种异构数据源之间稳定高效的数据同步功能。 设计理念 为了解决异构数据源同步问题,DataX将复杂的网状的同步链路变成 阅读全文
posted @ 2024-04-24 09:02 爵岚 阅读(1068) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示