摘要: 阅读全文
posted @ 2024-01-24 18:57 阿飞藏泪 阅读(2) 评论(0) 推荐(0) 编辑
摘要: DataFrame支持两种风格进行编程,分别是: •DSL风格 •SQL风格 DSL语法风格 DSL称之为:领域特定语言。 其实就是指DataFrame的特有API DSL风格意思就是以调用API的方式来处理Data 比如:df.where().limit() SQL语法风格 SQL风格就是使用SQ 阅读全文
posted @ 2024-01-24 18:44 阿飞藏泪 阅读(7) 评论(0) 推荐(0) 编辑
摘要: parquet: 是Spark中常用的一种列式存储文件格式 和Hive中的ORC差不多, 他俩都是列存储格式 parquet对比普通的文本文件的区别: ●parquet 内置schema (列名\列类型\是否为空) ●存储是以列作为存储格式 ●存储是序列化存储在文件中的(有压缩属性体积小 阅读全文
posted @ 2024-01-24 18:09 阿飞藏泪 阅读(4) 评论(0) 推荐(0) 编辑
摘要: 阅读全文
posted @ 2024-01-24 18:05 阿飞藏泪 阅读(5) 评论(0) 推荐(0) 编辑
摘要: 阅读全文
posted @ 2024-01-24 18:04 阿飞藏泪 阅读(3) 评论(0) 推荐(0) 编辑
摘要: 将RDD转换为DataFrame方式2: 通过StructType对象来定义DataFrame的“表结构”转换RDD 阅读全文
posted @ 2024-01-24 18:01 阿飞藏泪 阅读(3) 评论(0) 推荐(0) 编辑
1 2 3
4