2018 年 6月 27 日随笔档案 - 打杂滴

spark sql

摘要： Spark 用来操作结构化和半结构化数据的接口——Spark SQL。结构化数据是指任何有结构信息的数据。所谓结构信息，就是每条记录共用的已知的字段集合。当数据符合这样的条件时，Spark SQL 就会使得针对这些数据的读取和查询变得更加简单高效。 Spark SQL 提供了以下三大功能： (1) 阅读全文

posted @ 2018-06-27 16:41 打杂滴阅读(245) 评论(0) 推荐(0) 编辑

Spark调优与调试

摘要：使用SparkConf配置Spark 对Spark 进行性能调优，通常就是修改Spark 应用的运行时配置选项。Spark 中最主要的配置机制是通过SparkConf 类对Spark 进行配置。当创建出一个SparkContext 时，就需要创建出一个SparkConf 的实例. 在Scala 中使阅读全文

posted @ 2018-06-27 14:56 打杂滴阅读(266) 评论(0) 推荐(0) 编辑

在集群上运行Spark

摘要： Spark 可以在各种各样的集群管理器（Hadoop YARN、Apache Mesos，还有Spark 自带的独立集群管理器）上运行，所以Spark 应用既能够适应专用集群，又能用于共享的云计算环境。在分布式环境下，Spark 集群采用的是主/ 从结构。在一个Spark 集群中，有一个节点负责中阅读全文

posted @ 2018-06-27 11:03 打杂滴阅读(225) 评论(0) 推荐(0) 编辑

努力，奋斗

公告

2018年6月27日

spark sql

Spark调优与调试

在集群上运行Spark