06 2019 档案
摘要:1. Airflow Airflow是一个调度、监控工作流的平台。用于将一个工作流制定为一组任务的有向无环图(DAG),并指派到一组计算节点上,根据相互之间的依赖关系,有序执行。 2. 安装 pip安装airflow: pip3 install apache-airflow 初始化db: airfl
阅读全文
摘要:Normal 0 false false false false EN-US ZH-CN X-NONE 1. DataFrames,Datasets,与SparkSQL Spark SQL 以及它的 DataFrames和Datasets 接口是Spark性能的未来,它们提供了更高效的存储选择,高级
阅读全文
摘要:避免使用GroupByKey 我们看一下两种计算word counts 的方法,一个使用reduceByKey,另一个使用 groupByKey: val words = Array("one", "two", "two", "three", "three", "three") val wordPa
阅读全文
摘要:Spark 允许用户为driver(或主节点)编写运行在计算集群上,并行处理数据的程序。在Spark中,它使用RDDs代表大型的数据集,RDDs是一组不可变的分布式的对象的集合,存储在executors中(或从节点)。组成RDDs的对象称为partitions,并可能(但是也不是必须的)在分布式系统
阅读全文
浙公网安备 33010602011771号