随笔分类 -  Big Data

摘要:1. 准备工作 1.1. 安装并初始化airflow,参考以下文档: https://www.cnblogs.com/zackstang/p/11082322.html 其中还要额外安装的是: sudo pip-3.6 install -i https://pypi.tuna.tsinghua.ed 阅读全文
posted @ 2020-03-12 21:34 ZacksTang 阅读(948) 评论(0) 推荐(0) 编辑
摘要:Hive on Tez Mapper 数量计算 在Hive 中执行一个query时,我们可以发现Hive 的执行引擎在使用 Tez 与 MR时,两者生成mapper数量差异较大。 主要原因在于 Tez 中对 inputSplit 做了 grouping 操作,将多个 inputSplit 组合成更少 阅读全文
posted @ 2019-08-30 15:19 ZacksTang 阅读(4041) 评论(2) 推荐(0) 编辑
摘要:1. Airflow Airflow是一个调度、监控工作流的平台。用于将一个工作流制定为一组任务的有向无环图(DAG),并指派到一组计算节点上,根据相互之间的依赖关系,有序执行。 2. 安装 pip安装airflow: pip3 install apache-airflow 初始化db: airfl 阅读全文
posted @ 2019-06-25 13:31 ZacksTang 阅读(4605) 评论(0) 推荐(0) 编辑
摘要:1. 启动Kafka Server bin/kafka-server-start.sh config/server.properties & 2. 创建一个新topic bin/kafka-topics.sh --create --zookeeper xxxx --replication-facto 阅读全文
posted @ 2019-01-24 00:15 ZacksTang 阅读(7487) 评论(2) 推荐(0) 编辑

点击右上角即可分享
微信分享提示