摘要:
阅读全文
摘要:
DataFrame支持两种风格进行编程,分别是: •DSL风格 •SQL风格 DSL语法风格 DSL称之为:领域特定语言。 其实就是指DataFrame的特有API DSL风格意思就是以调用API的方式来处理Data 比如:df.where().limit() SQL语法风格 SQL风格就是使用SQ 阅读全文
摘要:
parquet: 是Spark中常用的一种列式存储文件格式 和Hive中的ORC差不多, 他俩都是列存储格式 parquet对比普通的文本文件的区别: ●parquet 内置schema (列名\列类型\是否为空) ●存储是以列作为存储格式 ●存储是序列化存储在文件中的(有压缩属性体积小 阅读全文
摘要:
阅读全文
摘要:
阅读全文
摘要:
将RDD转换为DataFrame方式2: 通过StructType对象来定义DataFrame的“表结构”转换RDD 阅读全文