随笔档案「2018年11月」 - 绝不原创的飞龙

Airflow 中文文档：API 参考

摘要：运营商运算符允许生成某些类型的任务，这些任务在实例化时成为DAG中的节点。所有运算符都派生自BaseOperator ，并以这种方式继承许多属性和方法。有关更多详细信息，请参阅BaseOperator文档。有三种主要类型的运营商：执行操作的操作员，或告诉其他系统执行操作的操作员传输操作员将阅读全文

posted @ 2018-11-29 18:08 绝不原创的飞龙阅读(87) 评论(0) 推荐(0)

Airflow 中文文档：常见问题

摘要：为什么我的任务没有安排好？您的任务可能无法安排的原因有很多。以下是一些常见原因：您的脚本是否“编译”，Airflow引擎是否可以解析它并找到您的DAG对象。要对此进行测试，您可以运行airflow list_dags并确认您的DAG显示在列表中。您还可以运行airflow list_tas 阅读全文

posted @ 2018-11-29 18:07 绝不原创的飞龙阅读(67) 评论(0) 推荐(0)

Airflow 中文文档：Lineage

摘要：注意 Lineage 支持是非常实验性的，可能会发生变化。 Airflow可以帮助跟踪数据的来源，发生的事情以及数据随时间的变化。这有助于实现审计跟踪和数据治理，还可以调试数据流。气流通过任务的入口和出口跟踪数据。让我们从一个例子开始，看看它是如何工作的。 from airflow.opera 阅读全文

posted @ 2018-11-29 18:04 绝不原创的飞龙阅读(60) 评论(0) 推荐(0)

Airflow 中文文档：集成

摘要：反向代理Azure：Microsoft AzureAWS：亚马逊网络服务DatabricksGCP：Google云端平台反向代理可以在反向代理后面设置气流，并能够灵活地设置其端点。例如，您可以配置反向代理以获取： https : // lab . mycompany . com / myorg 阅读全文

posted @ 2018-11-29 18:03 绝不原创的飞龙阅读(33) 评论(0) 推荐(0)

Airflow 中文文档：实验性 Rest API

摘要：Airflow公开了一个实验性的Rest API。它可以通过网络服务器获得。端点可在/ api / experimental /获得。请注意，我们希望端点定义发生变化。端点这是占位符，直到招摇定义处于活动状态 / api / experimental / dags / <DAG_ID> / 阅读全文

posted @ 2018-11-29 18:02 绝不原创的飞龙阅读(66) 评论(0) 推荐(0)

Airflow 中文文档：时区

摘要：默认情况下启用对时区的支持。 Airflow在内部和数据库中以UTC格式存储日期时间信息。它允许您使用时区相关的计划运行DAG。目前，Airflow不会将其转换为用户界面中的最终用户时区。它始终以UTC显示。此外，操作符中使用的模板也不会被转换。时区信息是暴露出来的，由DAG的作者负责。阅读全文

posted @ 2018-11-29 18:01 绝不原创的飞龙阅读(77) 评论(0) 推荐(0)

Airflow 中文文档：安全

摘要：默认情况下，所有门都打开。限制对Web应用程序的访问的一种简单方法是在网络级别或使用SSH隧道执行此操作。但是，可以通过使用其中一个提供的后端或创建自己的后端来打开身份验证。请务必查看Experimental Rest API以保护API。 Web身份验证密码最简单的身份验证机制之一是要求阅读全文

posted @ 2018-11-29 18:00 绝不原创的飞龙阅读(25) 评论(0) 推荐(0)

Airflow 中文文档：插件

摘要：Airflow内置了一个简单的插件管理器，可以通过简单地删除$AIRFLOW_HOME/plugins文件夹中的文件，将外部功能集成到其核心。 plugins文件夹中的python模块将被导入，钩子，操作符，传感器，宏，执行器和Web 视图将集成到Airflow的主要集合中，并可供阅读全文

posted @ 2018-11-29 17:59 绝不原创的飞龙阅读(70) 评论(0) 推荐(0)

Airflow 中文文档：调度和触发器

摘要：Airflow调度程序监视所有任务和所有DAG，并触发已满足其依赖关系的任务实例。在幕后，它监视并与其可能包含的所有DAG对象的文件夹保持同步，并定期（每分钟左右）检查活动任务以查看是否可以触发它们。 Airflow调度程序旨在作为Airflow生产环境中的持久服务运行。要开始，您需要做的就是执阅读全文

posted @ 2018-11-29 17:58 绝不原创的飞龙阅读(87) 评论(0) 推荐(0)

Airflow 中文文档：命令行界面

摘要：Airflow具有非常丰富的命令行界面，允许在DAG上执行多种类型的操作，启动服务以及支持开发和测试。 usage : airflow [ - h ] { resetdb , render , variables , connections , create_user , pause , task_ 阅读全文

posted @ 2018-11-29 17:57 绝不原创的飞龙阅读(104) 评论(0) 推荐(0)

Airflow 中文文档：数据分析

摘要：使用数据生产效率的一部分是拥有正确的武器来分析您正在使用的数据。 Airflow提供了一个简单的查询界面来编写SQL并快速获得结果，以及一个图表应用程序，可以让您可视化数据。临时查询 adhoc查询UI允许与Airflow中注册的数据库连接进行简单的SQL交互。图表基于flask-admin和阅读全文

posted @ 2018-11-29 13:51 绝不原创的飞龙阅读(54) 评论(0) 推荐(0)

Airflow 中文文档：概念

摘要：Airflow Platform是用于描述，执行和监控工作流的工具。核心理念 DAG的在Airflow中， DAG （或定向非循环图）是您要运行的所有任务的集合，以反映其关系和依赖关系的方式进行组织。例如，一个简单的DAG可以包含三个任务：A，B和C.可以说A必须在B可以运行之前成功运行，但C 阅读全文

posted @ 2018-11-29 13:49 绝不原创的飞龙阅读(62) 评论(0) 推荐(0)

Airflow 中文文档：UI /截图

摘要：通过Airflow UI，您可以轻松监控数据管道并对其进行故障排除。以下是您可以在Airflow UI中找到的一些功能和可视化的快速概述。 DAGs查看您环境中的DAG列表，以及一组有用页面的快捷方式。您可以一目了然地查看成功，失败或当前正在运行的任务数量。树视图跨越时间的DAG的树表示。阅读全文

posted @ 2018-11-29 13:48 绝不原创的飞龙阅读(43) 评论(0) 推荐(0)

Airflow 中文文档：使用测试模式配置

摘要：Airflow具有一组固定的“测试模式”配置选项。您可以随时通过调用airflow.configuration.load_test_config()来加载它们（注意此操作不可逆！）。但是，在您有机会调用load_test_config（）之前，会加载一些选项（如DAG_FOLDER）。为了急切阅读全文

posted @ 2018-11-29 13:46 绝不原创的飞龙阅读(36) 评论(0) 推荐(0)

Airflow 中文文档：用upstart运行Airflow

摘要：Airflow可以与基于upstart的系统集成。 Upstart会在系统启动时自动启动/etc/init具有相应*.conf文件的所有气流服务。失败时，upstart会自动重启进程（直到达到*.conf文件中设置的重新生成限制）。您可以在scripts/upstart目录中找到示例新贵作业文件阅读全文

posted @ 2018-11-29 13:45 绝不原创的飞龙阅读(19) 评论(0) 推荐(0)

Airflow 中文文档：使用systemd运行Airflow

摘要：Airflow可以与基于系统的系统集成。这使得观察您的守护进程变得容易，因为systemd可以在失败时重新启动守护进程。在scripts/systemd目录中，您可以找到已在基于Redhat的系统上测试过的单元文件。您可以将它们复制到/usr/lib/systemd/system 。假设Ai 阅读全文

posted @ 2018-11-29 13:44 绝不原创的飞龙阅读(32) 评论(0) 推荐(0)

Airflow 中文文档：使用Mesos扩展（社区贡献）

摘要：有两种方法可以将气流作为mesos框架运行：直接在mesos从站上运行气流任务，要求每个mesos从站安装和配置气流。在安装了气流的docker容器内运行气流任务，该容器在mesos slave上运行。任务直接在mesos从站上执行 MesosExecutor允许您在Mesos群集上安排气流任务阅读全文

posted @ 2018-11-29 13:43 绝不原创的飞龙阅读(27) 评论(0) 推荐(0)

Airflow 中文文档：用Dask扩展

摘要：DaskExecutor允许您在Dask分布式群集中运行Airflow任务。 Dask集群可以在单个机器上运行，也可以在远程网络上运行。有关完整详细信息，请参阅分布式文档。要创建集群，首先启动调度程序： # default settings for a local cluster DASK_H 阅读全文

posted @ 2018-11-29 13:41 绝不原创的飞龙阅读(45) 评论(0) 推荐(0)

Airflow 中文文档：用Celery扩大规模

摘要：CeleryExecutor是您扩展工人数量的方法之一。为此，您需要设置Celery后端（ RabbitMQ ， Redis ，…）并更改airflow.cfg以将执行程序参数指向CeleryExecutor并提供相关的Celery设置。有关设置Celery代理的更多信息，请参阅有关该主题的详尽阅读全文

posted @ 2018-11-29 13:40 绝不原创的飞龙阅读(55) 评论(0) 推荐(0)

Airflow 中文文档：写日志

摘要：在本地编写日志用户可以使用base_log_folder设置在airflow.cfg指定日志文件夹。默认情况下，它位于AIRFLOW_HOME目录中。此外，用户可以提供远程位置，以便在云存储中存储日志和日志备份。在Airflow Web UI中，本地日志优先于远程日志。如果找不到或访问本地阅读全文

posted @ 2018-11-29 13:39 绝不原创的飞龙阅读(137) 评论(0) 推荐(0)

Airflow 中文文档：保护连接

摘要：默认情况下，Airflow将在元数据数据库中以纯文本格式保存连接的密码。在安装过程中强烈建议使用crypto包。 crypto包确实要求您的操作系统安装了libffi-dev。如果最初未安装crypto软件包，您仍可以通过以下步骤为连接启用加密：安装crypto包pip install apa 阅读全文

posted @ 2018-11-28 20:14 绝不原创的飞龙阅读(67) 评论(0) 推荐(0)

Airflow 中文文档：管理连接

摘要：Airflow需要知道如何连接到您的环境。其他系统和服务的主机名，端口，登录名和密码等信息在UI的Admin->Connection部分中处理。您将创作的管道代码将引用Connection对象的“conn_id”。可以使用UI或环境变量创建和管理连接。有关更多信息，请参阅Connenc 阅读全文

posted @ 2018-11-28 20:13 绝不原创的飞龙阅读(61) 评论(0) 推荐(0)

Airflow 中文文档：使用操作器

摘要：操作器代表一个理想情况下是幂等的任务。操作员确定DAG运行时实际执行的内容。有关更多信息，请参阅Operators Concepts文档和Operators API Reference 。 BashOperator 模板故障排除找不到Jinja模板 PythonOperator 传递参数模板阅读全文

posted @ 2018-11-28 20:10 绝不原创的飞龙阅读(30) 评论(0) 推荐(0)

Airflow 中文文档：初始化数据库后端

摘要：如果您想对Airflow进行真正的试驾，您应该考虑设置一个真正的数据库后端并切换到LocalExecutor。由于Airflow是使用优秀的SqlAlchemy库与其元数据进行交互而构建的，因此您应该能够使用任何支持作为SqlAlchemy后端的数据库后端。我们建议使用MySQL或Postgre 阅读全文

posted @ 2018-11-28 20:08 绝不原创的飞龙阅读(82) 评论(0) 推荐(0)

Airflow 中文文档：设置配置选项

摘要：第一次运行Airflow时，它会在$AIRFLOW_HOME目录中创建一个名为airflow.cfg的文件（默认情况下为~/airflow $AIRFLOW_HOME ）。此文件包含Airflow的配置，您可以对其进行编辑以更改任何设置。您还可以使用以下格式设置带有环境变量的选项： $AIRFL 阅读全文

posted @ 2018-11-28 20:07 绝不原创的飞龙阅读(117) 评论(0) 推荐(0)

Airflow 中文文档：教程

摘要：本教程将向您介绍一些基本的Airflow概念，对象及其在编写第一个管道时的用法。示例管道定义以下是基本管道定义的示例。如果这看起来很复杂，请不要担心，下面将逐行说明。 """ Code that goes along with the Airflow tutorial located at: 阅读全文

posted @ 2018-11-28 20:04 绝不原创的飞龙阅读(61) 评论(0) 推荐(0)

Airflow 中文文档：安装

摘要：获得气流安装最新稳定版Airflow的最简单方法是使用pip ： pip install apache-airflow 您还可以安装Airflow，支持s3或postgres等额外功能： pip install apache-airflow [ postgres,s3 ] 注意 GPL依赖默认情阅读全文

posted @ 2018-11-28 20:03 绝不原创的飞龙阅读(57) 评论(0) 推荐(0)

Airflow 中文文档：快速开始

摘要：安装快速而直接。 # airflow needs a home, ~/airflow is the default, # but you can lay foundation somewhere else if you prefer # (optional) export AIRFLOW_HOME 阅读全文

posted @ 2018-11-28 20:00 绝不原创的飞龙阅读(49) 评论(0) 推荐(0)

Airflow 中文文档：项目

摘要：历史 Airflow于2014年10月由Airbnb的Maxime Beauchemin开始。它是第一次提交的开源，并在2015年6月宣布正式加入Airbnb Github。该项目于2016年3月加入了Apache Software Foundation的孵化计划。提交者 @mistercru 阅读全文

posted @ 2018-11-28 19:58 绝不原创的飞龙阅读(24) 评论(0) 推荐(0)

TensorFlow HOWTO 2.2 支持向量回归（软间隔）

摘要：将上一节的假设改一改，模型就可以用于回归问题。操作步骤导入所需的包。 import tensorflow as tf import numpy as np import matplotlib.pyplot as plt import sklearn.datasets as ds import s 阅读全文

posted @ 2018-11-27 19:42 绝不原创的飞龙阅读(23) 评论(0) 推荐(0)

TensorFlow HOWTO 2.1 支持向量分类（软间隔）

摘要：在传统机器学习方法，支持向量机算是比较厉害的方法，但是计算过程非常复杂。软间隔支持向量机通过减弱了其约束，使计算变得简单。操作步骤导入所需的包。 import tensorflow as tf import numpy as np import matplotlib as mpl import 阅读全文

posted @ 2018-11-27 19:39 绝不原创的飞龙阅读(25) 评论(0) 推荐(0)

Airflow 中文文档翻译和改进活动 | ApacheCN

摘要：仓库：https://github.com/apachecn/airflow-doc-zh 进度：https://github.com/apachecn/airflow-doc-zh/issues/1 贡献指南：https://github.com/apachecn/airflow-doc-zh/b 阅读全文

posted @ 2018-11-25 21:50 绝不原创的飞龙阅读(21) 评论(0) 推荐(0)

统计学习基础（ESL）中文版

摘要：译者：szcf-weiya ESL 指的是 The Elements of Statistical Learning。因为（译者）自己也是统计学专业，所以想研读这本书，同时实现书中的算法及其例子，并尝试解决习题。说明参考文献保留原书的写法，如 “Efron and Tibshirani (199 阅读全文

posted @ 2018-11-25 17:44 绝不原创的飞龙阅读(184) 评论(0) 推荐(0)

TensorFlow HOWTO 1.4 Softmax 回归

摘要：1.4 Softmax 回归 Softmax 回归可以看成逻辑回归在多个类别上的推广。操作步骤导入所需的包。 import tensorflow as tf import numpy as np import matplotlib as mpl import matplotlib.pyplot 阅读全文

posted @ 2018-11-23 21:01 绝不原创的飞龙阅读(19) 评论(0) 推荐(0)

TensorFlow HOWTO 1.3 逻辑回归

摘要：1.3 逻辑回归将线性回归的模型改一改，就可以用于二分类。逻辑回归拟合样本属于某个分类，也就是样本为正样本的概率。操作步骤导入所需的包。 import tensorflow as tf import numpy as np import matplotlib as mpl import mat 阅读全文

posted @ 2018-11-23 21:00 绝不原创的飞龙阅读(22) 评论(0) 推荐(0)

TensorFlow HOWTO 1.2 LASSO、岭和 Elastic Net

摘要：1.2 LASSO、岭和 Elastic Net 当参数变多的时候，就要考虑使用正则化进行限制，防止过拟合。操作步骤导入所需的包。 import tensorflow as tf import numpy as np import matplotlib.pyplot as plt import 阅读全文

posted @ 2018-11-23 20:58 绝不原创的飞龙阅读(25) 评论(0) 推荐(0)

TensorFlow HOWTO 1.1 线性回归

摘要：1.1 线性回归线性回归是你能用 TF 搭出来的最简单的模型。操作步骤导入所需的包。 import tensorflow as tf import numpy as np import matplotlib.pyplot as plt import sklearn.datasets as ds 阅读全文

posted @ 2018-11-23 20:56 绝不原创的飞龙阅读(23) 评论(0) 推荐(0)

【番外】负采样原理

摘要：本来不想先写这篇的，有个任务要用到，就花了一天时间弄清楚，然后总觉得要写点什么，就写了。 NCE（噪声对比估计）负采样可以看成 NCE 的特化，所以有必要先讲一下 NCE。在 Softmax 回归中，样本属于某个分类的概率是： P ( y = k ∣ x ) = exp ⁡ ( w k T x 阅读全文

posted @ 2018-11-14 22:59 绝不原创的飞龙阅读(43) 评论(0) 推荐(0)

数据科学和人工智能技术笔记六、日期时间预处理

摘要：六、日期时间预处理作者：Chris Albon 译者：飞龙协议：CC BY-NC-SA 4.0 把日期和时间拆成多个特征 # 加载库 import pandas as pd # 创建数据帧 df = pd.DataFrame() # 创建五个日期 df['date'] = pd.date_ran 阅读全文

posted @ 2018-11-10 21:33 绝不原创的飞龙阅读(17) 评论(0) 推荐(0)

数据科学和人工智能技术笔记五、文本预处理

摘要：五、文本预处理作者：Chris Albon 译者：飞龙协议：CC BY-NC-SA 4.0 词袋 # 加载库 import numpy as np from sklearn.feature_extraction.text import CountVectorizer import pandas 阅读全文

posted @ 2018-11-10 21:32 绝不原创的飞龙阅读(13) 评论(0) 推荐(0)

数据科学和人工智能技术笔记四、图像预处理

摘要：四、图像预处理作者：Chris Albon 译者：飞龙协议：CC BY-NC-SA 4.0 图像二值化 # 加载库 import cv2 import numpy as np from matplotlib import pyplot as plt # 将图像加载为灰度 image_grey = 阅读全文

posted @ 2018-11-10 21:31 绝不原创的飞龙阅读(27) 评论(0) 推荐(0)

数据科学和人工智能技术笔记三、数据预处理

摘要：三、数据预处理作者：Chris Albon 译者：飞龙协议：CC BY-NC-SA 4.0 为 Scikit-Learn 转换 Pandas 类别数据 # 导入所需的库 from sklearn import preprocessing import pandas as pd raw_data 阅读全文

posted @ 2018-11-09 21:00 绝不原创的飞龙阅读(15) 评论(0) 推荐(0)

数据科学和人工智能技术笔记二、数据准备

摘要：二、数据准备作者：Chris Albon 译者：飞龙协议：CC BY-NC-SA 4.0 从字典加载特征 from sklearn.feature_extraction import DictVectorizer staff = [{'name': 'Steve Miller', 'age': 阅读全文

posted @ 2018-11-09 20:59 绝不原创的飞龙阅读(11) 评论(0) 推荐(0)

数据科学和人工智能技术笔记一、向量、矩阵和数组

摘要：一、向量、矩阵和数组作者：Chris Albon 译者：飞龙协议：CC BY-NC-SA 4.0 转置矩阵或向量 # 加载库 import numpy as np # 创建向量 vector = np.array([1, 2, 3, 4, 5, 6]) # 创建矩阵 matrix = np.ar 阅读全文

posted @ 2018-11-09 20:58 绝不原创的飞龙阅读(10) 评论(0) 推荐(0)

ApacheCN 学习资源汇总 2018.11

摘要：首页地址：http://www.apachecn.org 关于我们：http://www.apachecn.org/about 我们不是 Apache 的官方组织/机构/团体，只是 Apache 技术栈（以及 AI）的爱好者！ Java 基础 Java 编程思想 Java Web 和大数据 Spar 阅读全文

posted @ 2018-11-05 16:51 绝不原创的飞龙阅读(19) 评论(0) 推荐(0)

龙哥盟

掠夺·扩张·投机·博弈

11 2018 档案

公告