Spark SQL概念学习系列之性能调优

　　不多说，直接上干货！

性能调优

　　Caching Data In Memory

　　Spark SQL可以通过调用sqlContext.cacheTable("tableName") 或者dataFrame.cache()，将表用一种柱状格式（ an inmemory columnar format）缓存至内存中。然后Spark SQL在执行查询任务时，只需扫描必需的列，从而以减少扫描数据量、提高性能。

　　通过缓存数据，Spark SQL还可以自动调节压缩，从而达到最小化内存使用率和降低GC压力的目的。调用sqlContext.uncacheTable("tableName")可将缓存的数据移出内存。

　　可通过两种配置方式开启缓存数据功能：

　　　　使用SQLContext的setConf方法

　　　　执行SQL命令 SET key=value

　　其他调优参数

　　可以通过配置下表中的参数调节Spark SQL的性能。在后续的Spark版本中将逐渐增强自动调优功能，下表中的参数在后续的版本中或许将不再需要配置。

posted @ 2017-06-05 14:48 大数据和AI躺过的坑阅读(747) 评论(0) 收藏举报

刷新页面返回顶部

大数据和人工智能躺过的坑

Spark SQL概念学习系列之性能调优

性能调优

公告