采集项目&数据仓库项目(是企业中数据管理平台中的两个核心管理模块)

采集项目:数据采集,传输为主(flume, kafka, datax, maxwell)

数据仓库:以计算为主,同时存储数据(mysql, HDFS, Spark, Flink , MR, Hive)

 

数据库&数据仓库

数据库database

  • 来源:企业中基础核心的业务数据
  • 存储:查找数据。行式存储,索引,不能存海量数据(查询速度)
  • 价值:保障全企业全业务的正常运行

数据仓库data warehouse

  • 来源:数据库中的数据
  • 存储:统计分析数据。列式存储。存储海量数据(准确性)
  • 价值:将数据的统计结果为企业的经营决策提供数据支撑,可视化

 

数据流转的过程

客户端 -> 服务器 -> 数据存储        数据采集                    数据统计分析:数据仓库(Hive)                                              ->  数据可视化

          数据库业务 -> DataX, Maxwell   

          日志文件行为->        Flume -> HDFS <- 数据源 -> 加工数据(过滤数据,格式..)-> 统计数据 -> 分析数据-> Mysql

spark on hive: spark解析sql

hive on spark: hive解析sql

 

数据仓库的数据源从数据库周期性(天)同步,同步过程叫采集。

解耦合,加中间件

data& file ->

HDFS(file)->

hive(table) -> HDFS(file)

汇总。

将数据转化为结构化数据:表

 

posted on 2024-01-21 12:32  dddddcoke  阅读(26)  评论(0编辑  收藏  举报