随笔分类 - Airflow
摘要:1, 简介 Airflow是一个可编程,调度和监控的工作流平台,基于有向无环图(DAG),airflow可以定义一组有依赖的任务,按照依赖依次执行。airflow提供了丰富的命令行工具用于系统管控,而其web管理界面同样也可以方便的管控调度任务,并且对任务运行状态进行实时监控,方便了系统的运维和
阅读全文
摘要:airflow常用命令如下所示: 使用REST API远程调用执行airflow的命令: http://localhost:8080/admin/airflow/trigger?dag_id=example_hello_world_dag http://localhost:8080/admin/ai
阅读全文
摘要:airflow常见问题的排查记录如下: 1,airflow怎么批量 大量的dag任务 普通少量任务可以通过命令 命令来启动,或者在web界面点击启动按钮实现,但是当任务过多的时候,一个个任务去启动就比较麻烦。其实dag信息是存储在数据库中的,可以通过批量修改数据库信息来达到批量启动dag任务的效
阅读全文
摘要:celery是python实现的分布式调度框架,有时候想用celery去调用java服务,正好有一个celery java的库可以使用,能达到这个效果,记录一下: 先添加依赖: 先定义任务类 再定义工作入口类 运行 即可启动 版的 工作节点: 然后定义celery的任务调度程序 : 运行 程序反应如
阅读全文
摘要:使用 作为处理器的时候,会发现默认访问的地址 端口为 例如下面这样定义的任务 在运行的时候会抛出如下异常: 说明http请求的host需要进行配置,不然默认访问谷歌域名. 查看源码: 通过源码得知,airflow会先读取环境变量看是否有自定义uri,如果有的话使用自定义的uri,如果没有的话则使用内
阅读全文
摘要:apache airflow1.9.0 + python3 + rabbitmq + librabbitmq2.0.0 相关配置如下: 结果运行的时候抛出如下异常: 原因分析: airflow 1.9.0使用的是celery4.x, 而celery 4.x使用json序列化,而不是用pickle进行
阅读全文
摘要: 当使用rabbitmq作为airflow的broker的时候,启动scheduler,即执行airflow scheduler命令的时候抛出以下异常: 整体环境描述: python3.6 + apache airflow1.9.0 + rabbitmq 3.6 因为使用redis作为brok
阅读全文
摘要:airflow整合环境搭建 1. 整体结构 mysql 后端数据库 redis 用于broker CeleryExecutor 执行器 2. 环境安装 2.1,安装python anaconda环境 2.2,安装mysql相关依赖 2.3,安装airflow相关模块 2.4,安装mysql 2.5,
阅读全文
摘要: 在airflow中使用的时间是utc时间,而更多时候我们希望的是使用本地时间,于是在定义airflow定时任务的时候,涉及到了时间的转换。 1.python中本地时间和utc时间的转换 查看国内可用时区: 方式一: 修改配置文件 使用操作系统时间 方式二: 参考链接: "https://stac
阅读全文