摘要: 1.官网下载 下载地址:https://github.com/alibaba/DataX DataX 是阿里巴巴集团内被广泛使用的离线数据同步工具/平台,实现包括 MySQL、Oracle、SqlServer、Postgre、HDFS、Hive、ADS、HBase、TableStore(OTS)、M 阅读全文
posted @ 2017-12-06 16:25 信方 阅读(1930) 评论(0) 推荐(0) 编辑
摘要: 1 概述(Overview) Spark SQL是Spark的一个组件,用于结构化数据的计算。Spark SQL提供了一个称为DataFrames的编程抽象,DataFrames可以充当分布式SQL查询引擎。 2 DataFrames DataFrame是一个分布式的数据集合,该数据集合以命名列的方 阅读全文
posted @ 2017-12-06 10:55 信方 阅读(2300) 评论(0) 推荐(0) 编辑