06 2019 档案

摘要:1. Airflow Airflow是一个调度、监控工作流的平台。用于将一个工作流制定为一组任务的有向无环图(DAG),并指派到一组计算节点上,根据相互之间的依赖关系,有序执行。 2. 安装 pip安装airflow: pip3 install apache-airflow 初始化db: airfl 阅读全文
posted @ 2019-06-25 13:31 ZacksTang 阅读(4735) 评论(0) 推荐(0)
摘要:Normal 0 false false false false EN-US ZH-CN X-NONE 1. DataFrames,Datasets,与SparkSQL Spark SQL 以及它的 DataFrames和Datasets 接口是Spark性能的未来,它们提供了更高效的存储选择,高级 阅读全文
posted @ 2019-06-12 14:21 ZacksTang 阅读(683) 评论(0) 推荐(0)
摘要:避免使用GroupByKey 我们看一下两种计算word counts 的方法,一个使用reduceByKey,另一个使用 groupByKey: val words = Array("one", "two", "two", "three", "three", "three") val wordPa 阅读全文
posted @ 2019-06-08 15:05 ZacksTang 阅读(1591) 评论(0) 推荐(1)
摘要:Spark 允许用户为driver(或主节点)编写运行在计算集群上,并行处理数据的程序。在Spark中,它使用RDDs代表大型的数据集,RDDs是一组不可变的分布式的对象的集合,存储在executors中(或从节点)。组成RDDs的对象称为partitions,并可能(但是也不是必须的)在分布式系统 阅读全文
posted @ 2019-06-07 15:48 ZacksTang 阅读(2979) 评论(0) 推荐(0)