6.3 使用Spark SQL读写数据库

posted @ 2019-12-11 14:20 nxf_rabbit75 阅读(1288) 评论(0) 编辑收藏举报

undefined

undefined

Spark SQL可以支持Parquet、JSON、Hive等数据源，并且可以通过JDBC连接外部数据源

一、通过JDBC连接数据库

1.准备工作

ubuntu安装mysql教程

在Linux中启动MySQL数据库：

输入下面SQL语句完成数据库和表的创建：

2.读取mysql数据库中的数据

下载MySQL的JDBC驱动程序，比如mysql-connector-java-5.1.40.tar.gz
把该驱动程序拷贝到spark的安装目录” /usr/local/spark/jars”下
启动一个spark-shell，启动Spark Shell时，必须指定mysql连接驱动jar包

执行以下命令连接数据库，读取数据，并显示：

load()读取数据，封装到DataFrame内存中。

3.向mysql数据库写入数据

　　在MySQL数据库中创建了一个名称为spark的数据库，并创建了一个名称为student的表创建后，查看一下数据库内容：

　　现在开始在spark-shell中编写程序，往spark.student表中插入两条记录

二、连接Hive读写数据

1.准备工作

数据仓库（Data Warehouse）是一个面向主题的（Subject Oriented）、集成的（Integrated）、相对稳定的（Non-Volatile）、反映历史变化（Time Variant）的数据集合，用于支持管理决策。

图数据仓库的体系结构

2.向Hive中创建数据库和表

3.连接Hive读写数据

posted @ 2019-12-11 14:20 nxf_rabbit75 阅读(1288) 评论(0) 编辑收藏举报

刷新页面返回顶部

登录后才能查看或发表评论，立即登录或者逛逛博客园首页

【推荐】还在用 ECharts 开发大屏？试试这款永久免费的开源 BI 工具！
【推荐】国内首个AI IDE，深度理解中文开发场景，立即下载体验Trae
【推荐】编程新体验，更懂你的AI，立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包，你的智能百科全书，全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell：AI 加持，快人一步

编辑推荐：
· go语言实现终端里的倒计时
· 如何编写易于单元测试的代码
· 10年+ .NET Coder 心语，封装的思维：从隐藏、稳定开始理解其本质意义
· .NET Core 中如何实现缓存的预热？
· 从 HTTP 原因短语缺失研究 HTTP/2 和 HTTP/3 的设计差异

阅读排行：
· 分享一个免费、快速、无限量使用的满血 DeepSeek R1 模型，支持深度思考和联网搜索！
· 使用C#创建一个MCP客户端
· ollama系列1：轻松3步本地部署deepseek，普通电脑可用
· 基于 Docker 搭建 FRP 内网穿透开源项目（很简单哒）
· 按钮权限的设计及实现

历史上的今天：
2018-12-11 pandas取dataframe特定行/列

<

2025年3月

>

日

一

二

三

四

五

六

23

24

25

26

27

28

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

19

20

21

22

23

24

25

26

27

28

29

30

31

1

2

3

4

5

最新随笔

随笔分类 (511)

阅读排行榜

推荐排行榜

0

0

一、通过JDBC连接数据库 1.准备工作 2.读取mysql数据库中的数据 3.向mysql数据库写入数据二、连接Hive读写数据 1.准备工作 2.向Hive中创建数据库和表 3.连接Hive读写数据