学习笔记7

DataFrame的创建
Spark2.0版本开始，Spark使用全新的SparkSession接口替代Spark1.6中的SQLContext及HiveContext接口来实现其对数据加载、转换、处理等功能。SparkSession实现了SQLContext及HiveContext所有功能；

SparkSession支持从不同的数据源加载数据，并把数据转换成DataFrame，支持把DataFrame转换成SQLContext自身中的表，然后使用SQL语句来操作数据。SparkSession亦提供了HiveQL以及其他依赖于Hive的功能的支持；可以通过如下语句创建一个SparkSession对象：

scala> import org.apache.spark.sql.SparkSession

scala> val spark=SparkSession.builder().getOrCreate()

在创建DataFrame前，为支持RDD转换为DataFrame及后续的SQL操作，需通过import语句（即import spark.implicits._）导入相应包，启用隐式转换。

在创建DataFrame时，可使用spark.read操作从不同类型的文件中加载数据创建DataFrame，如：spark.read.json("people.json")：读取people.json文件创建DataFrame；在读取本地文件或HDFS文件时，要注意给出正确的文件路径；spark.read.csv("people.csv")：读取people.csv文件创建DataFrame；

读取hdfs上的json文件，并打印，json文件为：

{"name":"Michael"}

{"name":"Andy", "age":30}

{"name":"Justin", "age":19}

读取代码：

import org.apache.spark.sql.SparkSession

val spark=SparkSession.builder().getOrCreate()

import spark.implicits._

val df =spark.read.json("hdfs://172.22.241.183:8020/user/spark/json_sparksql.json")

df.show()

RDD转换DataFrame
Spark官网提供了两种方法来实现从RDD转换得到DataFrame：① 利用反射来推断包含特定类型对象的RDD的schema，适用对已知数据结构的RDD转换；② 使用编程接口，构造一个schema并将其应用在已知的RDD上；

Spark-sql即席查询
SparkSQL 的元数据的状态有两种：① in_memory，用完了元数据也就丢了；② 通过hive保存，hive的元数据存在哪儿，它的元数据也就存在哪，SparkSQL数据仓库建立在Hive之上实现的，使用SparkSQL去构建数据仓库的时候，必须依赖于Hive。

Spark-sql命令行提供了即席查询能力，可以使用类sql方式操作数据源，效率高于hive

spark-sql导入数据到数仓

posted @ 2024-01-18 18:16 lcz111 阅读(11) 评论(0) 编辑收藏举报

刷新页面返回顶部

登录后才能查看或发表评论，立即登录或者逛逛博客园首页

相关博文：

· 学习笔记2

· 学习笔记8

· DataFrame创建

· DataFrame

· spark sql使用--创建SparkDataFrame

阅读排行：
· 震惊！C++程序真的从main开始吗？99%的程序员都答错了
· winform 绘制太阳，地球，月球运作规律
· 【硬核科普】Trae如何「偷看」你的代码？零基础破解AI编程运行原理
· 上周热点回顾（3.3-3.9）
· 超详细：普通电脑也行Windows部署deepseek R1训练数据并当服务器共享给他人

公告

昵称： lcz111
园龄： 2年8个月
粉丝： 0
关注： 0

+加关注

2025年3月

日

一

二

三

四

五

六

LCZ

学习笔记7

公告

搜索

常用链接

随笔分类

随笔档案

阅读排行榜

推荐排行榜