摘要: 转自:http://www.cnblogs.com/yurunmiao/p/4685310.html 前言 Spark SQL允许我们在Spark环境中使用SQL或者Hive SQL执行关系型查询。它的核心是一个特殊类型的Spark RDD:SchemaRDD。 SchemaRDD类似于传统关系型数 阅读全文
posted @ 2017-05-14 15:21 XGogo 阅读(528) 评论(0) 推荐(0) 编辑
摘要: 相对于使用MapReduce或者Spark Application的方式进行数据分析,使用Hive SQL或Spark SQL能为我们省去不少的代码工作量,而Hive SQL或Spark SQL本身内置的各类UDF也为我们的数据处理提供了不少便利的工具,当这些内置的UDF不能满足于我们的需要时,Hi 阅读全文
posted @ 2017-05-14 15:15 XGogo 阅读(1597) 评论(0) 推荐(0) 编辑
摘要: 使用Spark SQL的基础是“注册”(Register)若干表,表的一个重要组成部分就是模式,Spark SQL提供两种选项供用户选择: (1)applySchema applySchema的方式需要用户编码显示指定模式,优点:数据类型明确,缺点:多表时有一定的代码工作量。 (2)inferSch 阅读全文
posted @ 2017-05-14 15:14 XGogo 阅读(788) 评论(0) 推荐(0) 编辑
摘要: 转自:http://www.cnblogs.com/yurunmiao/p/4936583.html Spark相对于Hadoop MapReduce有一个很显著的特性就是“迭代计算”(作为一个MapReduce的忠实粉丝,能这样说,大家都懂了吧),这在我们的业务场景里真的是非常有用。 假设我们有一 阅读全文
posted @ 2017-05-14 15:12 XGogo 阅读(1072) 评论(0) 推荐(0) 编辑
摘要: 转自:http://www.cnblogs.com/yurunmiao/p/5195754.html 目前平台使用Kafka + Flume的方式进行实时数据接入,Kafka中的数据由业务方负责写入,这些数据一部分由Spark Streaming进行流式计算;另一部分数据则经由Flume存储至HDF 阅读全文
posted @ 2017-05-14 15:08 XGogo 阅读(761) 评论(0) 推荐(0) 编辑