随笔分类 - 大数据
ETL工具、大数据应用
摘要:前端埋点数据采集(二)mock应用系统10万条前端埋点数据 上一期我们分享了前端埋点数据采集(一)采集系统架构设计 我们说应用系统的数据,采集到大数据平台来,然后再到数仓。但是很多实际场景是应用系统、大数据平台、数仓平台各自并没有完成系统的搭建和开发。 假设现在一个场景是:应用系统javaweb并未
阅读全文
摘要:前几次内容分享,我们逐步搭建了传统hadoop大数据平台、zookeeper、kafka集群等。 假设现在一个场景是:今天产品经理提了1个优先级极高的需求:应用系统前端埋点数据都需要被采集到大数据平台hadoop上。 “前端埋点数据的采集系列”,主要分为以下5个部分: 一、采集系统架构设计 二、mo
阅读全文
摘要:前几次内容分享,我们一共做了三件事: 1.逐步搭建了传统hadoop大数据平台包括zookeeper、kafka、flume集群 2.采集前端埋点到hdfs 3.采集业务数据到hdfs 这样数据都采集到HDFS上了,其实就是到了数仓了! 数据采集请看以下链接: 前端埋点数据采集系列 一、采集系统架构
阅读全文
摘要:通过前面内容分享,我们讲解了数仓建模的概念、理论、OLTP、OLAP、以及ODS、DIM、DWD、DWS、DWT、ADS层简单搭建。涉及的内容非常多,这节我们捋一捋数仓建模的步骤、以及数仓分层思路、五层每层的设计、处理、加载等总结一下。 一、建模步骤 1、关于数仓的建模有两种基本的模型: 关系建模(
阅读全文
摘要:一. DataX3.0概览 DataX 是一个异构数据源离线同步工具,致力于实现包括关系型数据库(MySQL、Oracle等)、HDFS、Hive、ODPS、HBase、FTP等各种异构数据源之间稳定高效的数据同步功能。 设计理念 为了解决异构数据源同步问题,DataX将复杂的网状的同步链路变成
阅读全文