tdh平台简介
先贴上官网tdh(Transwarp Data Hub)星环大数据平台生态图:
之前一直用的cdh,最近打算切换大数据平台,所以就拿cdh组件和tdh组件进行比较,下面只是目前用到的组件,个人理解对应关系如下:
cdh | tdh | 备注 |
---|---|---|
navigator | audit | 用于审计 |
hive | inceptor | 数仓 |
hbase | hyperbase | 列式nosql数据库 |
kafka+flink+sparkstreaming | splitstream | 实时计算 |
cloudera manager | manager | 集群管理 |
hdfs | tdfs | 分布式文件系统 |
kerberos+sentry+ldap | guardian | 用户权限管理及安全认证 |
cloudera manager | aquila | 监控告警 |
TDH特点:
-
极致的性能与可扩展性
TDH的批处理速度是开源Hadoop的10-100倍,是MPP的5-10倍,可以对从GB到PB级的数据量实现复杂的查询和分析。TDH具有高可扩展性,用户可以通过增加集群节点数量,线性提高系统的处理能力。 -
容器技术与大数据平台
TDH支持部署于TCOS之上。TCOS是为大数据应用量身订做的云操作系统,基于Docker和Kubernetes,支持一键部署TDH、扩容、缩容,同时支持基于优先级的抢占式资源调度和细粒度资源分配。 -
完整的SQL和ACID支持
Transwarp Inceptor是第一个实现完整SQL支持的Hadoop发行产品。它不仅支持SQL 2003,Oracle PL/SQL以及DB2 SQL PL,还实现了完整的ACID和CRUD功能。TDH提供JDBC和ODBC驱动连接,方便第三方工具运行于TDH之上。 -
低延迟的流处理 Transwarp Slipstream是同时支持事件驱动和微批处理的流处理引擎,计算延迟最低可至5ms。它提供标准的SQL编程接口,还支持高可用性(HA)和Exactly-Once的语义,从而支持7x24小时的生产业务。
-
丰富的机器学习和深度学习功能
Transwarp Discover支持用户通过R语言和Python开发机器学习项目,也可以用图形化的工具做分析。 -
大数据上的全文搜索
Transwarp Search支持通过SQL实现大数据上的秒级全文搜索,它利用层次化存储、堆外内存管理等创新性技术,极大的提高了系统的可用性。此外,Search还可以结合Inceptor提供较强的数据分析能力。 -
图形化的大数据开发工具套件
Transwarp Studio是TDH中的大数据开发工具集,包括元数据管理Governor、工作流Workflow、数据整合工具Transporter,Cube设计工具Rubik以及报表工具Pilot。用户可以使用这些图形化工具来提高大数据的开发效率,降低技术门槛。 -
多样化的数据处理功能
Transwarp Hyperbase用于存储和计算结构化或非结构化数据,包括日志记录、JSON/XML文件以及二进制数据(如图像和视频)。Hyperbase底层是KV的数据库,因此其非常适合高频次的数据入库、高并发精确检索等业务。 -
简易的操作和管理
Transwarp Manager是专门用于部署、管理和运维TDH集群的组件。它支持产品一键安装、一键升级和图形化运维,并提供了健康检测功能,帮助用户简化运维过程。 -
统一的安全/多租户管理
Transwarp Guardian是TDH平台中实现安全控制和资源管理的中央服务平台,它支持Kerberos和LDAP认证,可以做细粒度的权限控制,并且提供租户管理功能。