airflow HiveOperator实例
此实例的测试环境是airflow部署在服务器而不是部署在容器
hive 是基于 Hadoop 的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,
并提供简单的 sql 查询功能,可以将 sql 语句转换为 MapReduce 任
务进行运行。在 airflow 中调用 hive 任务,首先需要安装依赖
pip install apache-airflow[hive]
编写dag文件
from airflow import DAG from airflow.operators import HiveOperator from datetime import datetime, timedelta from airflow.models import Variable from airflow.operators import ExternalTaskSensor from airflow.operators import EmailOperator default_args = { 'owner': 'airflow', 'depends_on_past': False, 'start_date': datetime(2019, 6, 1), 'email': ['810905729@qq.com'], 'email_on_failure': False, 'email_on_retry': False, 'retries': 1, 'retry_delay': timedelta(minutes=1), 'end_date': datetime(9999, 1, 1), } dag = DAG('dw_ly', default_args=default_args, schedule_interval='30 10 * * *', catchup=False) t1 = HiveOperator( task_id='dw_ly', hql='select * from test1.employee ', dag=dag) t1