|NO.Z.00004|——————————|BigDataEnd|——|Hadoop&实时数仓.V04|——|项目.v04|背景需求|技术选型|
一、技术选型
### --- 技术选型方案
~~~ # 框架选型 Apache / 第三方发行版(CDH / HDP / Fusion Insight) Apache社区版本优点:
~~~ 完全开源免费
~~~ 社区活跃
~~~ 文档、资料详实
~~~ # 缺点:
~~~ 复杂的版本管理
~~~ 复杂的集群安装
~~~ 复杂的集群运维
~~~ 复杂的生态环境
### --- 第三发行版本
~~~ 第三方发行版本(CDH / HDP / Fusion Insight) Hadoop遵从Apache开源协议,
~~~ 用户可以免费地任意使用和修改Hadoop。
~~~ 正因如此,市面上有很多厂家在Apache Hadoop的基础上开发自己的产品。
~~~ 如Cloudera的CDH,Hortonworks的HDP,华为的Fusion Insight等。
~~~ # 这些产品的优点是:主要功能与社区版一致
~~~ 版本管理清晰。比如Cloudera,CDH1,CDH2,CDH3,CDH4等,
~~~ 后面加上补丁版本,如CDH4.1.0 patchlevel 923.142
~~~ 比 Apache Hadoop 在兼容性、安全性、稳定性上有增强。
~~~ 第三方发行版通常都经过了大量的测试验证,有众多部署实例,大量的运用到各种生产环境
~~~ 版本更新快。如CDH每个季度会有一个update,每一年会有一个release
~~~ 基于稳定版本Apache Hadoop,并应用了最新Bug修复或Feature的patch
~~~ 提供了部署、安装、配置工具,大大提高了集群部署的效率,可以在几个小时内部署好集群
~~~ 运维简单。提供了管理、监控、诊断、配置修改的工具,
~~~ 管理配置方便,定位问题快速、准确,使运维工作简单,有效
~~~ # CDH:
~~~ 最成型的发行版本,拥有最多的部署案例。提供强大的部署、管理和监控工具。
~~~ 国内使用最多的版本;
~~~ 拥有强大的社区支持,当遇到问题时,能够通过社区、论坛等网络资源快速获取解决方法;
~~~ HDP:100%开源,可以进行二次开发,但没有CDH稳定。国内使用相对较少;
~~~ Fusion Insight:华为基于hadoop2.7.2版开发的,坚持分层,解耦,开放的原则,
~~~ 得益于高可靠性,在全国各地政府、运营商、金融系统有较多案例。
~~~ 软件选型 数据采集:Flume、Canal 数据存储:MySQL、Kafka、HBase、Redis 数据计算:
~~~ Flink OLAP:ClickHouse、Druid 框架软件尽量不要选择最新的版本,
### --- 选择半年前左右稳定的版本。
~~~ 服务器选型 选择物理机还是云主机 机器成本考虑:物理机的价格 > 云主机的价格 运维成本考虑:
~~~ 物理机需要有专业的运维人员;云主机的运维工作由供应商完成,运维相对容易,成本相对较低;
产品 | 版本 |
Hadoop | 2.9.2 |
Flume | 1.9 |
Canal | 1.1.4 |
Kafka | 1.0.2 |
Flink | 1.11 |
MySql | 5.7 |
HBase | 2.2.5 |
Zookeeper | 3.4.14 |
ClickHouse | 20.5.4 |
二、系统逻辑架构

Walter Savage Landor:strove with none,for none was worth my strife.Nature I loved and, next to Nature, Art:I warm'd both hands before the fire of life.It sinks, and I am ready to depart
——W.S.Landor
分类:
bdv026-EB实时数仓
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· 无需6万激活码!GitHub神秘组织3小时极速复刻Manus,手把手教你使用OpenManus搭建本
· Manus爆火,是硬核还是营销?
· 终于写完轮子一部分:tcp代理 了,记录一下
· 别再用vector<bool>了!Google高级工程师:这可能是STL最大的设计失误
· 单元测试从入门到精通