分布式设计

分布式设计

  • 1.复制
  • 作用
    • 对数据备份,实现高可用
    • 提高吞吐量,实现高性能
  • 分类
    • 主从架构
      • 性能
        • 一主多从,读写分离,提高吞吐量
      • 可用性
        • 主库单点,一旦挂了,无法写入
        • 从库高可用
      • 一致性
        • 数据同步存在延迟,读时从库中返回的可能是旧数据
          • 解决方案
            • 直接忽略,存在延迟很正常
            • 班不同步复制(semi-sync),主从同步完成写请求才返回,吞吐量降低
            • 选择读主
              • 思路
                • 写操作时,根据库+表+业务特征生成key设置到缓存中并设置超时时间(大于等于主从数据同步时间),读操作时,同样方式生成key,先去查缓存,如果命中则读主库,否则读从库
              • 技术难点
                • 主从数据同步时间的计算 不同网络,配置下,时间不一样
              • 很多数据库的中间件就是使用的这种思路,如mycat等,但是中间件的成本同样不低
            • 对于即时性有要求的接口,直接从主数据库读
        • 读写分离的情况下,并发出现更新丢失问题
          • 悲观锁
            • 必须加载主数据库商,这样就不能做读写分离
          • 乐观锁
            • 可以
            • update当前读,这样也不能做读写分离
          • 有一致性要求的接口,无法读写分离,只能从主库中操作
    • 多主架构(互为备份)
      • 性能
        • 负载均衡
      • 可用性
        • 高可用
      • 一致性
        • 和主从架构一样
    • 主主从从
      • 高性能
      • 高可用
      • 一致性
        • 和主从一样
    • 主备
      • 主库提供读写服务,备库做故障转移用
      • 性能一般
        • 提高性能 设置缓存
      • 高可用
      • 无一致性问题
      • 使用广泛 58和阿里云
  • mysql主从同步的原理
  • 2.分片/分库分表
  • 需求分析
    • 用户请求量太大 -> 分布式服务器(分散请求到多个服务器上)
    • 单库太大  单库所在服务器上磁盘空间不足;处理能力有限;出现IO瓶颈
    • 单表太大 -> CRUD都成问题,索引膨胀,查询超时
  • 作用
    • 共同组成完整的数据集合,扩充单机存储的容量上限,读写速度上限
  • 每个服务器节点成为分片
  • 优点: 高吞吐
    • 吞吐量越高,同一时间数据的读写完成量越高
    • 一个节点可能单日吞吐量只能到达1TB(收硬件限制,硬盘速度有限)
  • 垂直拆分
    • 垂直分表
      • 把字段分开成多张表
    • 垂直分库
      • 将有关联的表放在一个数据库中 如用户表,用户频道表等
    • 项目处理
      • 用户数据垂直分表  user_basic  user_profile
      • 文章数据垂直分表(文章内容较长且只在详情页才需要) article_basic  article_content
        • 两张表 定义时都包含其关联数据,这就要求使用事务来保证数据一致性
  • 水平拆分
    • 水平分表
      • 将1000万条记录分成两张表
      • 分表方式:按时间/id/地理/hash取模 分表
    • 水平分库分表 分表分别放在不同的节点,使用率极高
    • 分布式ID
      • 需求:水平分表后,需要保证多表id不会出现冲突
      • 解决方案
        • UUID 通用唯一识别码 缺点:较长,不会趋势递增(主键如果不是递增的,索引效率会比较低)
        • 数据库主键自增
          • 方案1: 单独数据库 只负责生成主键  缺点:一旦宕机,全局瘫痪
          • 方案2: 设置自增步长 所有表都使用相同的步长 缺点:分片规则不能修改,无法扩展
        • Redis
          • incr("user_id")返回的值自增
          • 不会出现资源抢夺问题,因为redis是单线程的,可以保证原子性
          • 缺点
            • redis宕机
            • redis易数据丢失
        • 雪花算法-Snowflake
          • twitter提出的算法,目的是生成一个64位的整数

          • 缺点:时间回拨,及其的原因时间可能出现偏差,虽然会同步进行校正,但生成时可能是错误的
            • 如果发生回拨(当前时间<记录的时间),算法会自动抛出异常,可以让用户稍等一会儿
            • 取消同步ntp时间
          • 项目中的应用
            • 用户id 文章id 评论id 后期数据量可能会很大
    • 前期数据量和请求次数少时,不要做分片
  • 分布式问题
    • 一致性问题
      • 主从延迟
        • 对于即时性高的接口,直接从主库中提取
      • 更新丢失
        • 不进行读写分离,在主库中完成流程
    • 分片id冲突
      • 实现分布式ID
    • 跨库原子性
      • 一个业务中可能包含多个库中的写操作,该业务需要具有原子性,但是无不具备跨库原子性
      • 解决办法
        • 将有关联的表放在一个数据库中
        • 使用分布式事务
          • 核心是二阶段提交协议(简称 2PC协议/XA协议)
          • 会出现事务等待的情况,增加死锁的产生机率,效率低
        • 通过优化业务逻辑,实现基于消息的最终一致性方案(本质是通过消息队列执行异步任务,部分失败则不断重试/或全部取消,一般需要中间件完成任务分发,任务充实,消息幂等等)
          • 分布式中间件 merge引擎 分库分表中间件 mycat
    • 跨库join
      • join不允许跨库完成
      • 解决办法
        • 分两次查询进行
        • 开启FEDERATED引擎
    • 跨库结果集 聚合/排序/分组
      • 不允许跨库操作
      • 分别查询,然后再应用端合并
    • 项目中的处理
      • 复制
        • 采用了主从架构,实现了"手动读写分离",但没有对主从延迟进行特殊处理
      • 分片
        • 实现了垂直分表
        • 使用了雪花算法生成了分布式ID,为水平分表提供了准备(单表行数至少超过1000万)
        • 由于垂直分表后没有分库,所以没有(不需要)实现分布式事务(所有写操作都在一个主库中)
      • 没有使用分布式中间件
    • 应用层设计方案
      • 悲观锁
        • 开发者主动设置锁
      • 乐观锁
        • 先不加锁(假设不会有并发问题),但是更新前校验数据一致性,需要手动代码实现
        • Django项目中先判断库存,再生成订单,就是乐观锁设计
        • 高级的乐观锁可能会采用版本号/时间戳来校验,需要进行表设计
        • 1 读取点赞数,如like_count=10
          2 每次更新表中的数据时,为了防止发生冲突,需要这样操作
          3 update t_article set like_count = 11 where article_id = 5 and like_count = 10;

           

posted @ 2019-07-09 16:08  UiPath在线接单  阅读(604)  评论(0编辑  收藏  举报