摘要: 运营商 运算符允许生成某些类型的任务,这些任务在实例化时成为DAG中的节点。 所有运算符都派生自BaseOperator ,并以这种方式继承许多属性和方法。 有关更多详细信息,请参阅BaseOperator文档。 有三种主要类型的运营商: 执行操作的操作员,或告诉其他系统执行操作的操作员传输操作员将 阅读全文
posted @ 2018-11-29 18:08 绝不原创的飞龙 阅读(56) 评论(0) 推荐(0) 编辑
摘要: 为什么我的任务没有安排好? 您的任务可能无法安排的原因有很多。 以下是一些常见原因: 您的脚本是否“编译”,Airflow引擎是否可以解析它并找到您的DAG对象。 要对此进行测试,您可以运行airflow list_dags并确认您的DAG显示在列表中。 您还可以运行airflow list_tas 阅读全文
posted @ 2018-11-29 18:07 绝不原创的飞龙 阅读(10) 评论(0) 推荐(0) 编辑
摘要: 注意 Lineage 支持是非常实验性的,可能会发生变化。 Airflow可以帮助跟踪数据的来源,发生的事情以及数据随时间的变化。 这有助于实现审计跟踪和数据治理,还可以调试数据流。 气流通过任务的入口和出口跟踪数据。 让我们从一个例子开始,看看它是如何工作的。 from airflow.opera 阅读全文
posted @ 2018-11-29 18:04 绝不原创的飞龙 阅读(35) 评论(0) 推荐(0) 编辑
摘要: 反向代理Azure:Microsoft AzureAWS:亚马逊网络服务DatabricksGCP:Google云端平台 反向代理 可以在反向代理后面设置气流,并能够灵活地设置其端点。 例如,您可以配置反向代理以获取: https : // lab . mycompany . com / myorg 阅读全文
posted @ 2018-11-29 18:03 绝不原创的飞龙 阅读(22) 评论(0) 推荐(0) 编辑
摘要: Airflow公开了一个实验性的Rest API。 它可以通过网络服务器获得。 端点可在/ api / experimental /获得。 请注意,我们希望端点定义发生变化。 端点 这是占位符,直到招摇定义处于活动状态 / api / experimental / dags / <DAG_ID> / 阅读全文
posted @ 2018-11-29 18:02 绝不原创的飞龙 阅读(34) 评论(0) 推荐(0) 编辑
摘要: 默认情况下启用对时区的支持。 Airflow在内部和数据库中以UTC格式存储日期时间信息。 它允许您使用时区相关的计划运行DAG。 目前,Airflow不会将其转换为用户界面中的最终用户时区。 它始终以UTC显示。 此外,操作符中使用的模板也不会被转换。 时区信息是暴露出来的,由DAG的作者负责。 阅读全文
posted @ 2018-11-29 18:01 绝不原创的飞龙 阅读(49) 评论(0) 推荐(0) 编辑
摘要: 默认情况下,所有门都打开。 限制对Web应用程序的访问的一种简单方法是在网络级别或使用SSH隧道执行此操作。 但是,可以通过使用其中一个提供的后端或创建自己的后端来打开身份验证。 请务必查看Experimental Rest API以保护API。 Web身份验证 密码 最简单的身份验证机制之一是要求 阅读全文
posted @ 2018-11-29 18:00 绝不原创的飞龙 阅读(14) 评论(0) 推荐(0) 编辑
摘要: Airflow内置了一个简单的插件管理器,可以通过简单地删除$AIRFLOW_HOME/plugins文件夹中的文件,将外部功能集成到其核心。 plugins文件夹中的python模块将被导入, 钩子 , 操作符 , 传感器 , 宏 , 执行器和Web 视图将集成到Airflow的主要集合中,并可供 阅读全文
posted @ 2018-11-29 17:59 绝不原创的飞龙 阅读(29) 评论(0) 推荐(0) 编辑
摘要: Airflow调度程序监视所有任务和所有DAG,并触发已满足其依赖关系的任务实例。 在幕后,它监视并与其可能包含的所有DAG对象的文件夹保持同步,并定期(每分钟左右)检查活动任务以查看是否可以触发它们。 Airflow调度程序旨在作为Airflow生产环境中的持久服务运行。 要开始,您需要做的就是执 阅读全文
posted @ 2018-11-29 17:58 绝不原创的飞龙 阅读(47) 评论(0) 推荐(0) 编辑
摘要: Airflow具有非常丰富的命令行界面,允许在DAG上执行多种类型的操作,启动服务以及支持开发和测试。 usage : airflow [ - h ] { resetdb , render , variables , connections , create_user , pause , task_ 阅读全文
posted @ 2018-11-29 17:57 绝不原创的飞龙 阅读(30) 评论(0) 推荐(0) 编辑
摘要: 使用数据生产效率的一部分是拥有正确的武器来分析您正在使用的数据。 Airflow提供了一个简单的查询界面来编写SQL并快速获得结果,以及一个图表应用程序,可以让您可视化数据。 临时查询 adhoc查询UI允许与Airflow中注册的数据库连接进行简单的SQL交互。 图表 基于flask-admin和 阅读全文
posted @ 2018-11-29 13:51 绝不原创的飞龙 阅读(16) 评论(0) 推荐(0) 编辑
摘要: Airflow Platform是用于描述,执行和监控工作流的工具。 核心理念 DAG的 在Airflow中, DAG (或定向非循环图)是您要运行的所有任务的集合,以反映其关系和依赖关系的方式进行组织。 例如,一个简单的DAG可以包含三个任务:A,B和C.可以说A必须在B可以运行之前成功运行,但C 阅读全文
posted @ 2018-11-29 13:49 绝不原创的飞龙 阅读(36) 评论(0) 推荐(0) 编辑
摘要: 通过Airflow UI,您可以轻松监控数据管道并对其进行故障排除。 以下是您可以在Airflow UI中找到的一些功能和可视化的快速概述。 DAGs查看 您环境中的DAG列表,以及一组有用页面的快捷方式。 您可以一目了然地查看成功,失败或当前正在运行的任务数量。 树视图 跨越时间的DAG的树表示。 阅读全文
posted @ 2018-11-29 13:48 绝不原创的飞龙 阅读(13) 评论(0) 推荐(0) 编辑
摘要: Airflow具有一组固定的“测试模式”配置选项。 您可以随时通过调用airflow.configuration.load_test_config()来加载它们(注意此操作不可逆!)。 但是,在您有机会调用load_test_config()之前,会加载一些选项(如DAG_FOLDER)。 为了急切 阅读全文
posted @ 2018-11-29 13:46 绝不原创的飞龙 阅读(17) 评论(0) 推荐(0) 编辑
摘要: Airflow可以与基于upstart的系统集成。 Upstart会在系统启动时自动启动/etc/init具有相应*.conf文件的所有气流服务。 失败时,upstart会自动重启进程(直到达到*.conf文件中设置的重新生成限制)。 您可以在scripts/upstart目录中找到示例新贵作业文件 阅读全文
posted @ 2018-11-29 13:45 绝不原创的飞龙 阅读(9) 评论(0) 推荐(0) 编辑
摘要: Airflow可以与基于系统的系统集成。 这使得观察您的守护进程变得容易,因为systemd可以在失败时重新启动守护进程。 在scripts/systemd目录中,您可以找到已在基于Redhat的系统上测试过的单元文件。 您可以将它们复制到/usr/lib/systemd/system 。 假设Ai 阅读全文
posted @ 2018-11-29 13:44 绝不原创的飞龙 阅读(13) 评论(0) 推荐(0) 编辑
摘要: 有两种方法可以将气流作为mesos框架运行: 直接在mesos从站上运行气流任务,要求每个mesos从站安装和配置气流。在安装了气流的docker容器内运行气流任务,该容器在mesos slave上运行。 任务直接在mesos从站上执行 MesosExecutor允许您在Mesos群集上安排气流任务 阅读全文
posted @ 2018-11-29 13:43 绝不原创的飞龙 阅读(12) 评论(0) 推荐(0) 编辑
摘要: DaskExecutor允许您在Dask分布式群集中运行Airflow任务。 Dask集群可以在单个机器上运行,也可以在远程网络上运行。 有关完整详细信息,请参阅分布式文档 。 要创建集群,首先启动调度程序: # default settings for a local cluster DASK_H 阅读全文
posted @ 2018-11-29 13:41 绝不原创的飞龙 阅读(22) 评论(0) 推荐(0) 编辑
摘要: CeleryExecutor是您扩展工人数量的方法之一。 为此,您需要设置Celery后端( RabbitMQ , Redis ,…)并更改airflow.cfg以将执行程序参数指向CeleryExecutor并提供相关的Celery设置。 有关设置Celery代理的更多信息,请参阅有关该主题的详尽 阅读全文
posted @ 2018-11-29 13:40 绝不原创的飞龙 阅读(20) 评论(0) 推荐(0) 编辑
摘要: 在本地编写日志 用户可以使用base_log_folder设置在airflow.cfg指定日志文件夹。 默认情况下,它位于AIRFLOW_HOME目录中。 此外,用户可以提供远程位置,以便在云存储中存储日志和日志备份。 在Airflow Web UI中,本地日志优先于远程日志。 如果找不到或访问本地 阅读全文
posted @ 2018-11-29 13:39 绝不原创的飞龙 阅读(49) 评论(0) 推荐(0) 编辑