TiDB学习笔记02-场景案例综述
1 TiDB 产品核心价值点和主打场景
HTAP 的定义:Hybrid Transactional/Analytical Processing,混合事务分析处理
数据处理大致可以分成两大类:联机事务处理OLTP(on-line transaction processing)、联机分析处理OLAP(On-Line Analytical Processing)。OLTP是传统的关系型数据库的主要应用,主要是基本的、日常的事务处理,例如银行交易。OLAP是数据仓库系统的主要应用,支持复杂的分析操作,侧重决策支持,并且提供直观易懂的查询结果。
TiDB 典型应用场景
● 海量数据高并发OLTP系统
○ 不再分库分表,不再使用妥协的数据库中间件,业务不再受制于基础架构
● 海量数据高性能实时分析
○ 兼容MySQL,大数据量下比MySQL 快1~2 个数量级的融合OLTP 和OLAP 的HTAP 数据库
● 多源高吞吐汇总与实时计算
○ 多源(数十至数百异构数据源)高吞吐(数十万QPS)汇聚写入AD-Hoc 准实时查询
● 实时数仓
○ 通过TiSpark 无缝连接Spark,无需ETL,提供实时的大规模复杂OLAP 分析查询能力。
● 金融级别多数据中心多活
○ 故障自动恢复、无需人工介入的真正意义上的高可用
● 云数据库(DBaaS)
○ 同Kubernetes、Docker等容器技术完美整合,自动调度有状态的服务
1.1 常用术语
(1)高可用
高可用HA(High Availability)是分布式系统架构设计中必须考虑的因素之一,它通常是指,通过设计减少系统不能提供服务的时间。单点是系统高可用的大敌,单点往往是系统高可用最大的风险和敌人,应该尽量在系统设计的过程中避免单点。方法论上,高可用保证的原则是集群化,或者叫冗余:只有一个单点,挂了服务会受影响;如果有冗余备份,挂了还有其他backup能够顶上。
(2)高并发
高并发(High Concurrency)通常是指通过设计保证系统能够同时并行处理很多请求。通俗来讲,高并发是指在同一个时间点,有很多用户同时的访问同一 API 接口或者 Url 地址。它经常会发生在有大活跃用户量,用户高聚集的业务场景中。
1.2 OLTP 场景
(1)OLTP 场景
● 场景特点
○ 高频SQL
○ 数据量中等
○ 相应延迟低
○ 读多写少
● 关注点
○ 高可用
○ 故障自动修复
○ 在线变更schema
○ 多点写入
(2)金融OLTP 场景
● 场景特点
○ 数据一致性
○ 事务一致性
○ 业务连续性
● 关注点
○ 传统OLTP 所有点
○ 强一致性
○ 高并发、高性能
○ 故障容错性
○ 跨地域多活、容灾故障自动修复
(3)分库分表集群
● 待解决的问题
○ 扩展=拆分,拆分必然侵入
业务
○ 业务需要改造SQL
○ 多维度的查询困难
○ 二次拆分困难
○ 很难实现分布式事务
○ 同时维护多份schema
(4)TiDB 对比中间件
从某种角度上讲,Tidb是一种大号的Mysql。、
(5)OLTP 场景的TiDB 方案
TiDB 场景优势
○ 数据一致性保证
○ 在线DDL
○ 支持多点写入
○ 自动故障检测、选主、转移
○ 计算存储分离,快速扩容读优点
● TiDB 场景劣势
○ 网络交互多,导致延迟增大
○ 读写共用leader
○ 有机器硬件要求(万兆网+ SSD)
(6)OLTP 场景的TiDB 方案
● 强一致性多副本技术
○ region 拆分一致性
○ 数据迁移一致性
○ 灵活控制副本位置
○ 网络、节点故障容错
● 线性横向扩展
○ 存储空间
○ 计算能力
● 分布式事务
● 多数据中心多活(表级别多点写入)
1.3 典型案例平安财神节活动“暖宝保”案例
活动业务场景- 暖宝保的业务特点:
● 参与门槛低:暖宝保这个业务保费价格低至19.9
● 推广力度很大:以微服务的方式对接如平安健康、好福利、平安银行、陆金所等所有APP端
● 典型的互联网活动形式:如秒杀、红包雨,所以对数据库的要求是高并发、低延迟、高响应、高可用,
容量规划:
● 2-5 年在线数据存储量预计达到20~50 TB
项目挑战:
● 时间紧迫:2018年12月17日~2019年1月7日,20天时间内完成开发测试到生产上线,时间短,风险大
● 开发零使用经验:现有开发大都是基于传统Oracle 保险业务,对于TiDB 没有使用经验
● 并发量与扩容:互联网业务并发需求前期不可完全需求,前期不能很好的以实际压力进行测试,与资源准备
2 HTAP 场景
中台业务场景
● 业务需求
○ 我们数据孤岛很痛
○ 我们分片多维度查询很痛
○ 我们需要静态数据Join 动态数据
○ 我们需要完整SQL 语义、支持复杂SQL
○ 我们需要便于增量更新、索引维护
○ 我们需要便于从binlog实时同步
● TiDB 非常适合中台场景
○ 协议兼容,轻松同步MySQL 生产库
○ 透明无障碍的跨分片查询
○ 数据实时落地
○ 海量存储允许多数据源汇聚
○ 备库-中台分析二合一
2.1 分布式计算框架- TiSpark
● 借助TiSpark
○ Spark 是成熟的计算平台
○ 继承Apache Spark 生态
○ 向下衔接大数据生态圈