2018年6月27日

摘要: Spark 用来操作结构化和半结构化数据的接口——Spark SQL。结构化数据是指任何有结构信息的数据。所谓结构信息,就是每条记录共用的已知的字段集合。当数据符合这样的条件时,Spark SQL 就会使得针对这些数据的读取和查询变得更加简单高效。 Spark SQL 提供了以下三大功能: (1) 阅读全文

posted @ 2018-06-27 16:41 打杂滴 阅读(245) 评论(0) 推荐(0) 编辑

摘要: 使用SparkConf配置Spark 对Spark 进行性能调优,通常就是修改Spark 应用的运行时配置选项。Spark 中最主要的配置机制是通过SparkConf 类对Spark 进行配置。当创建出一个SparkContext 时,就需要创建出一个SparkConf 的实例. 在Scala 中使 阅读全文

posted @ 2018-06-27 14:56 打杂滴 阅读(266) 评论(0) 推荐(0) 编辑

摘要: Spark 可以在各种各样的集群管理器(Hadoop YARN、Apache Mesos,还有Spark 自带的独立集群管理器)上运行,所以Spark 应用既能够适应专用集群,又能用于共享的云计算环境。 在分布式环境下,Spark 集群采用的是主/ 从结构。在一个Spark 集群中,有一个节点负责中 阅读全文

posted @ 2018-06-27 11:03 打杂滴 阅读(225) 评论(0) 推荐(0) 编辑


Copyright © 2024 打杂滴
Powered by .NET 8.0 on Kubernetes