2017 年 5月 14 日随笔档案 - XGogo

2017年5月14日

摘要：转自：http://www.cnblogs.com/yurunmiao/p/4685310.html 前言 Spark SQL允许我们在Spark环境中使用SQL或者Hive SQL执行关系型查询。它的核心是一个特殊类型的Spark RDD：SchemaRDD。 SchemaRDD类似于传统关系型数阅读全文

posted @ 2017-05-14 15:21 XGogo 阅读(528) 评论(0) 推荐(0) 编辑

Spark(Hive) SQL中UDF的使用（Python）【转】

摘要：相对于使用MapReduce或者Spark Application的方式进行数据分析，使用Hive SQL或Spark SQL能为我们省去不少的代码工作量，而Hive SQL或Spark SQL本身内置的各类UDF也为我们的数据处理提供了不少便利的工具，当这些内置的UDF不能满足于我们的需要时，Hi 阅读全文

posted @ 2017-05-14 15:15 XGogo 阅读(1597) 评论(0) 推荐(0) 编辑

Spark SQL inferSchema实现原理探微（Python）【转】

摘要：使用Spark SQL的基础是“注册”（Register）若干表，表的一个重要组成部分就是模式，Spark SQL提供两种选项供用户选择：（1）applySchema applySchema的方式需要用户编码显示指定模式，优点：数据类型明确，缺点：多表时有一定的代码工作量。（2）inferSch 阅读全文

posted @ 2017-05-14 15:14 XGogo 阅读(788) 评论(0) 推荐(0) 编辑

Spark SQL利器：cacheTable/uncacheTable【转】

摘要：转自：http://www.cnblogs.com/yurunmiao/p/4936583.html Spark相对于Hadoop MapReduce有一个很显著的特性就是“迭代计算”（作为一个MapReduce的忠实粉丝，能这样说，大家都懂了吧），这在我们的业务场景里真的是非常有用。假设我们有一阅读全文

posted @ 2017-05-14 15:12 XGogo 阅读(1072) 评论(0) 推荐(0) 编辑

Spark使用CombineTextInputFormat缓解小文件过多导致Task数目过多的问题【转】

摘要：转自：http://www.cnblogs.com/yurunmiao/p/5195754.html 目前平台使用Kafka + Flume的方式进行实时数据接入，Kafka中的数据由业务方负责写入，这些数据一部分由Spark Streaming进行流式计算；另一部分数据则经由Flume存储至HDF 阅读全文

posted @ 2017-05-14 15:08 XGogo 阅读(761) 评论(0) 推荐(0) 编辑

尧字节

明翼

公告