分布式定时任务

windows和Linux的cron可实现单机定时任务(平台依赖,单机)
java的Timer、ScheduledExecutorService 和 go的Ticker可在编程语言层面实现定时器(跨平台,单机)

Quartz 是一个完全由 Java 编写的开源作业调度框架(单机控制、没有负载均衡)

 

分布式定时任务(平台化管理、分布式部署、支持海量数据)

定时任务:系统为了自动完成特定任务,实时、延时、周期性完成任务调度的过程
分布式定时任务:把分散的、可靠性差的定时任务纳入统一的平台,并实现集群管理调度和分布式部署的一种定时任务的管理方式

按触发时机分类:

  • 定时任务
  • 延时任务
  • 周期任务

特点:

  • 自动化
  • 平台化
  • 分布式
  • 伸缩性
  • 高可用

执行方式:

  • 单机任务:随机触发一台及其执行
  • 广播任务:广播到所有机器执行同一个任务
  • Map任务:一个任务分出多个子任务,每个子任务负责一部分计算
  • MapReduce任务:在Map任务基础上对所有子任务结果汇总

定时任务框架:

分布式定时任务 & 大数据处理引擎

  • 关系
    • 都处理海量数据
    • 性能、伸缩性、稳定性高
  • 差异
    • 定时并不是大数据处理引擎要解决的问题
    • 大数据处理引擎致力于讲数据处理成结果,分布式定时任务除了这个还可调用HTTP和RPC服务

实现原理

核心架构

使用一个控制台Admin提供任务管理和干预功能,将问题分解为3个步骤:

  1. Trigger 触发器:解析任务生成触发事件
  2. Scheduler 调度器:分配任务,管理任务生命周期
  3. Executor 执行器:获取执行任务单元,执行任务逻辑

数据流:

用户创建触发条件和功能代码,提交后存入数据库。分布式定时任务框架解析数据并进行调度。

控制台

任务元数据

对任务属性的定义:基础信息、调度时机、执行行为、执行方式

任务实例

一次Job运行的实例:Job_id、触发时间、状态&结果、过程信息

触发器

解析任务的触发规则,在规定时间触发任务的调度

约束:

  • 支持大量任务
  • 支持秒级调度
  • 周期性多次执行
  • 保证秒级扫描高性能,避免资源浪费

方案1:定时扫描+延时消息(腾讯、字节)

方案2:时间轮(Quartz)

可将数据结构优化为最小堆

触发器——高可用

为了防止单点故障使用多个trigger节点,在存储和运行上对不同的业务做隔离,部署时通过数据库锁或分布式锁保证任务只被执行一次。

  1. 使用数据库行锁
    数据库的性能瓶颈较低,节点越多性能越差,这也是Quartz的一个局限
  2. 使用分布式锁——redis、zookeeper
    性能较高

调度器

  1. 资源来源
  2. 资源调度
    1. Executor节点选择:随机节点执行、广播执行、分片执行(按用户自定义分片逻辑拆分,分发到集群不同节点并行执行,提升资源利用率。可用于海量日志统计)
    2. 任务分片:
    3. 任务编排:任务存在先后依赖关系,可通过可视化界面生成有向无环图编排
    4. 故障转移:分片任务通过一致性Hash策略分发任务,当某个Executor执行失败将任务转移到其他机器执行
    5. 高可用
  3. 任务执行

应用

  • 电商
    • 订单30分钟未付款自动关闭
    • 定时发广告消息、发优惠券
  • 互动
    • 支付宝集五福
    • 分红包
  • 游戏
    • 活动结束后批量补发用户未领取奖励
    • 定时更新游戏内榜单

其他解决方案

  • 发货超10天自动收货
    • 分布式定时任务的延时任务
    • 消息队列的延时任务或定时任务
  • 春节集卡活动用户个数统计
    • 分布式定时任务的MapReduce任务
    • 大数据离线处理引擎Hive离线统计
    • 大数据实时处理引擎Flink实时累计

 

posted @ 2023-02-24 11:03  某某人8265  阅读(195)  评论(0编辑  收藏  举报