2017 年 12月 30 日随笔档案 - zhou_jun

2017年12月30日

摘要： spark SQL 性能调整对于某些工作负载，可以通过在内存中缓存数据或打开一些实验选项来提高性能。1，在内存中缓存数据 Spark SQL可以通过调用spark.catalog.cacheTable("tableName")或使用内存中的列格式缓存表da... 阅读全文

posted @ 2017-12-30 14:41 zhou_jun 阅读(643) 评论(0) 推荐(0) 编辑

spark SQL （五）数据源 Data Source----json hive jdbc等数据的的读取与加载

摘要： 1，JSON数据集 Spark SQL可以自动推断JSON数据集的模式，并将其作为一个Dataset[Row]。这个转换可以SparkSession.read.json()在一个Dataset[String]或者一个JSON文件上完成。请注意，作为json文件提供的文件不是典型的JSON文件。每行阅读全文

posted @ 2017-12-30 13:50 zhou_jun 阅读(981) 评论(0) 推荐(0) 编辑

spark SQL （四）数据源 Data Source----Parquet 文件的读取与加载

摘要： spark SQL Parquet 文件的读取与加载是由许多其他数据处理系统支持的柱状格式。Spark SQL支持阅读和编写自动保留原始数据模式的Parquet文件。在编写Parquet文件时，出于兼容性原因，所有列都会自动转换为空。1，以编程方式加载数据... 阅读全文

posted @ 2017-12-30 12:59 zhou_jun 阅读(2139) 评论(0) 推荐(0) 编辑

spark SQL（三）数据源 Data Source----通用的数据加载/保存功能

摘要： Spark SQL 的数据源------通用的数据加载/保存功能 Spark SQL支持通过DataFrame接口在各种数据源上进行操作。DataFrame可以使用关系变换进行操作，也可以用来创建临时视图。将DataFrame 注册为... 阅读全文

posted @ 2017-12-30 11:25 zhou_jun 阅读(902) 评论(0) 推荐(0) 编辑

zhou_jun

纵有疾风起，人生不言弃！没有做不到的事情，只有逃避的自己！fighting！

公告

zhou_jun

纵有疾风起，人生不言弃！ 没有做不到的事情，只有逃避的自己！fighting！

公告

纵有疾风起，人生不言弃！没有做不到的事情，只有逃避的自己！fighting！