11 2018 档案
摘要:运营商 运算符允许生成某些类型的任务,这些任务在实例化时成为DAG中的节点。 所有运算符都派生自BaseOperator ,并以这种方式继承许多属性和方法。 有关更多详细信息,请参阅BaseOperator文档。 有三种主要类型的运营商: 执行操作的操作员,或告诉其他系统执行操作的操作员传输操作员将
阅读全文
摘要:为什么我的任务没有安排好? 您的任务可能无法安排的原因有很多。 以下是一些常见原因: 您的脚本是否“编译”,Airflow引擎是否可以解析它并找到您的DAG对象。 要对此进行测试,您可以运行airflow list_dags并确认您的DAG显示在列表中。 您还可以运行airflow list_tas
阅读全文
摘要:注意 Lineage 支持是非常实验性的,可能会发生变化。 Airflow可以帮助跟踪数据的来源,发生的事情以及数据随时间的变化。 这有助于实现审计跟踪和数据治理,还可以调试数据流。 气流通过任务的入口和出口跟踪数据。 让我们从一个例子开始,看看它是如何工作的。 from airflow.opera
阅读全文
摘要:反向代理Azure:Microsoft AzureAWS:亚马逊网络服务DatabricksGCP:Google云端平台 反向代理 可以在反向代理后面设置气流,并能够灵活地设置其端点。 例如,您可以配置反向代理以获取: https : // lab . mycompany . com / myorg
阅读全文
摘要:Airflow公开了一个实验性的Rest API。 它可以通过网络服务器获得。 端点可在/ api / experimental /获得。 请注意,我们希望端点定义发生变化。 端点 这是占位符,直到招摇定义处于活动状态 / api / experimental / dags / <DAG_ID> /
阅读全文
摘要:默认情况下启用对时区的支持。 Airflow在内部和数据库中以UTC格式存储日期时间信息。 它允许您使用时区相关的计划运行DAG。 目前,Airflow不会将其转换为用户界面中的最终用户时区。 它始终以UTC显示。 此外,操作符中使用的模板也不会被转换。 时区信息是暴露出来的,由DAG的作者负责。
阅读全文
摘要:默认情况下,所有门都打开。 限制对Web应用程序的访问的一种简单方法是在网络级别或使用SSH隧道执行此操作。 但是,可以通过使用其中一个提供的后端或创建自己的后端来打开身份验证。 请务必查看Experimental Rest API以保护API。 Web身份验证 密码 最简单的身份验证机制之一是要求
阅读全文
摘要:Airflow内置了一个简单的插件管理器,可以通过简单地删除$AIRFLOW_HOME/plugins文件夹中的文件,将外部功能集成到其核心。 plugins文件夹中的python模块将被导入, 钩子 , 操作符 , 传感器 , 宏 , 执行器和Web 视图将集成到Airflow的主要集合中,并可供
阅读全文
摘要:Airflow调度程序监视所有任务和所有DAG,并触发已满足其依赖关系的任务实例。 在幕后,它监视并与其可能包含的所有DAG对象的文件夹保持同步,并定期(每分钟左右)检查活动任务以查看是否可以触发它们。 Airflow调度程序旨在作为Airflow生产环境中的持久服务运行。 要开始,您需要做的就是执
阅读全文
摘要:Airflow具有非常丰富的命令行界面,允许在DAG上执行多种类型的操作,启动服务以及支持开发和测试。 usage : airflow [ - h ] { resetdb , render , variables , connections , create_user , pause , task_
阅读全文
摘要:使用数据生产效率的一部分是拥有正确的武器来分析您正在使用的数据。 Airflow提供了一个简单的查询界面来编写SQL并快速获得结果,以及一个图表应用程序,可以让您可视化数据。 临时查询 adhoc查询UI允许与Airflow中注册的数据库连接进行简单的SQL交互。 图表 基于flask-admin和
阅读全文
摘要:Airflow Platform是用于描述,执行和监控工作流的工具。 核心理念 DAG的 在Airflow中, DAG (或定向非循环图)是您要运行的所有任务的集合,以反映其关系和依赖关系的方式进行组织。 例如,一个简单的DAG可以包含三个任务:A,B和C.可以说A必须在B可以运行之前成功运行,但C
阅读全文
摘要:通过Airflow UI,您可以轻松监控数据管道并对其进行故障排除。 以下是您可以在Airflow UI中找到的一些功能和可视化的快速概述。 DAGs查看 您环境中的DAG列表,以及一组有用页面的快捷方式。 您可以一目了然地查看成功,失败或当前正在运行的任务数量。 树视图 跨越时间的DAG的树表示。
阅读全文
摘要:Airflow具有一组固定的“测试模式”配置选项。 您可以随时通过调用airflow.configuration.load_test_config()来加载它们(注意此操作不可逆!)。 但是,在您有机会调用load_test_config()之前,会加载一些选项(如DAG_FOLDER)。 为了急切
阅读全文
摘要:Airflow可以与基于upstart的系统集成。 Upstart会在系统启动时自动启动/etc/init具有相应*.conf文件的所有气流服务。 失败时,upstart会自动重启进程(直到达到*.conf文件中设置的重新生成限制)。 您可以在scripts/upstart目录中找到示例新贵作业文件
阅读全文
摘要:Airflow可以与基于系统的系统集成。 这使得观察您的守护进程变得容易,因为systemd可以在失败时重新启动守护进程。 在scripts/systemd目录中,您可以找到已在基于Redhat的系统上测试过的单元文件。 您可以将它们复制到/usr/lib/systemd/system 。 假设Ai
阅读全文
摘要:有两种方法可以将气流作为mesos框架运行: 直接在mesos从站上运行气流任务,要求每个mesos从站安装和配置气流。在安装了气流的docker容器内运行气流任务,该容器在mesos slave上运行。 任务直接在mesos从站上执行 MesosExecutor允许您在Mesos群集上安排气流任务
阅读全文
摘要:DaskExecutor允许您在Dask分布式群集中运行Airflow任务。 Dask集群可以在单个机器上运行,也可以在远程网络上运行。 有关完整详细信息,请参阅分布式文档 。 要创建集群,首先启动调度程序: # default settings for a local cluster DASK_H
阅读全文
摘要:CeleryExecutor是您扩展工人数量的方法之一。 为此,您需要设置Celery后端( RabbitMQ , Redis ,…)并更改airflow.cfg以将执行程序参数指向CeleryExecutor并提供相关的Celery设置。 有关设置Celery代理的更多信息,请参阅有关该主题的详尽
阅读全文
摘要:在本地编写日志 用户可以使用base_log_folder设置在airflow.cfg指定日志文件夹。 默认情况下,它位于AIRFLOW_HOME目录中。 此外,用户可以提供远程位置,以便在云存储中存储日志和日志备份。 在Airflow Web UI中,本地日志优先于远程日志。 如果找不到或访问本地
阅读全文
摘要:默认情况下,Airflow将在元数据数据库中以纯文本格式保存连接的密码。 在安装过程中强烈建议使用crypto包。 crypto包确实要求您的操作系统安装了libffi-dev。 如果最初未安装crypto软件包,您仍可以通过以下步骤为连接启用加密: 安装crypto包pip install apa
阅读全文
摘要:Airflow需要知道如何连接到您的环境。 其他系统和服务的主机名,端口,登录名和密码等信息在UI的Admin->Connection部分中处理。 您将创作的管道代码将引用Connection对象的“conn_id”。 可以使用UI或环境变量创建和管理连接。 有关更多信息,请参阅Connenc
阅读全文
摘要:操作器代表一个理想情况下是幂等的任务。 操作员确定DAG运行时实际执行的内容。 有关更多信息,请参阅Operators Concepts文档和Operators API Reference 。 BashOperator 模板故障排除 找不到Jinja模板 PythonOperator 传递参数模板
阅读全文
摘要:如果您想对Airflow进行真正的试驾,您应该考虑设置一个真正的数据库后端并切换到LocalExecutor。 由于Airflow是使用优秀的SqlAlchemy库与其元数据进行交互而构建的,因此您应该能够使用任何支持作为SqlAlchemy后端的数据库后端。 我们建议使用MySQL或Postgre
阅读全文
摘要:第一次运行Airflow时,它会在AIRFLOW_HOME )。 此文件包含Airflow的配置,您可以对其进行编辑以更改任何设置。 您还可以使用以下格式设置带有环境变量的选项: $AIRFL
阅读全文
摘要:本教程将向您介绍一些基本的Airflow概念,对象及其在编写第一个管道时的用法。 示例管道定义 以下是基本管道定义的示例。 如果这看起来很复杂,请不要担心,下面将逐行说明。 """ Code that goes along with the Airflow tutorial located at:
阅读全文
摘要:获得气流 安装最新稳定版Airflow的最简单方法是使用pip : pip install apache-airflow 您还可以安装Airflow,支持s3或postgres等额外功能: pip install apache-airflow [ postgres,s3 ] 注意 GPL依赖 默认情
阅读全文
摘要:安装快速而直接。 # airflow needs a home, ~/airflow is the default, # but you can lay foundation somewhere else if you prefer # (optional) export AIRFLOW_HOME
阅读全文
摘要:历史 Airflow于2014年10月由Airbnb的Maxime Beauchemin开始。 它是第一次提交的开源,并在2015年6月宣布正式加入Airbnb Github。 该项目于2016年3月加入了Apache Software Foundation的孵化计划。 提交者 @mistercru
阅读全文
摘要:将上一节的假设改一改,模型就可以用于回归问题。 操作步骤 导入所需的包。 import tensorflow as tf import numpy as np import matplotlib.pyplot as plt import sklearn.datasets as ds import s
阅读全文
摘要:在传统机器学习方法,支持向量机算是比较厉害的方法,但是计算过程非常复杂。软间隔支持向量机通过减弱了其约束,使计算变得简单。 操作步骤 导入所需的包。 import tensorflow as tf import numpy as np import matplotlib as mpl import
阅读全文
摘要:仓库:https://github.com/apachecn/airflow-doc-zh 进度:https://github.com/apachecn/airflow-doc-zh/issues/1 贡献指南:https://github.com/apachecn/airflow-doc-zh/b
阅读全文
摘要:译者:szcf-weiya ESL 指的是 The Elements of Statistical Learning。因为(译者)自己也是统计学专业,所以想研读这本书,同时实现书中的算法及其例子,并尝试解决习题。 说明 参考文献保留原书的写法,如 “Efron and Tibshirani (199
阅读全文
摘要:1.4 Softmax 回归 Softmax 回归可以看成逻辑回归在多个类别上的推广。 操作步骤 导入所需的包。 import tensorflow as tf import numpy as np import matplotlib as mpl import matplotlib.pyplot
阅读全文
摘要:1.3 逻辑回归 将线性回归的模型改一改,就可以用于二分类。逻辑回归拟合样本属于某个分类,也就是样本为正样本的概率。 操作步骤 导入所需的包。 import tensorflow as tf import numpy as np import matplotlib as mpl import mat
阅读全文
摘要:1.2 LASSO、岭和 Elastic Net 当参数变多的时候,就要考虑使用正则化进行限制,防止过拟合。 操作步骤 导入所需的包。 import tensorflow as tf import numpy as np import matplotlib.pyplot as plt import
阅读全文
摘要:1.1 线性回归 线性回归是你能用 TF 搭出来的最简单的模型。 操作步骤 导入所需的包。 import tensorflow as tf import numpy as np import matplotlib.pyplot as plt import sklearn.datasets as ds
阅读全文
摘要:本来不想先写这篇的,有个任务要用到,就花了一天时间弄清楚,然后总觉得要写点什么,就写了。 NCE(噪声对比估计) 负采样可以看成 NCE 的特化,所以有必要先讲一下 NCE。 在 Softmax 回归中,样本属于某个分类的概率是: P ( y = k ∣ x ) = exp ( w k T x
阅读全文
摘要:六、日期时间预处理 作者:Chris Albon 译者:飞龙 协议:CC BY-NC-SA 4.0 把日期和时间拆成多个特征 # 加载库 import pandas as pd # 创建数据帧 df = pd.DataFrame() # 创建五个日期 df['date'] = pd.date_ran
阅读全文
摘要:五、文本预处理 作者:Chris Albon 译者:飞龙 协议:CC BY-NC-SA 4.0 词袋 # 加载库 import numpy as np from sklearn.feature_extraction.text import CountVectorizer import pandas
阅读全文
摘要:四、图像预处理 作者:Chris Albon 译者:飞龙 协议:CC BY-NC-SA 4.0 图像二值化 # 加载库 import cv2 import numpy as np from matplotlib import pyplot as plt # 将图像加载为灰度 image_grey =
阅读全文
摘要:三、数据预处理 作者:Chris Albon 译者:飞龙 协议:CC BY-NC-SA 4.0 为 Scikit-Learn 转换 Pandas 类别数据 # 导入所需的库 from sklearn import preprocessing import pandas as pd raw_data
阅读全文
摘要:二、数据准备 作者:Chris Albon 译者:飞龙 协议:CC BY-NC-SA 4.0 从字典加载特征 from sklearn.feature_extraction import DictVectorizer staff = [{'name': 'Steve Miller', 'age':
阅读全文
摘要:一、向量、矩阵和数组 作者:Chris Albon 译者:飞龙 协议:CC BY-NC-SA 4.0 转置矩阵或向量 # 加载库 import numpy as np # 创建向量 vector = np.array([1, 2, 3, 4, 5, 6]) # 创建矩阵 matrix = np.ar
阅读全文
摘要:首页地址:http://www.apachecn.org 关于我们:http://www.apachecn.org/about 我们不是 Apache 的官方组织/机构/团体,只是 Apache 技术栈(以及 AI)的爱好者! Java 基础 Java 编程思想 Java Web 和大数据 Spar
阅读全文