关闭页面特效

阅读目录

Spark（直接读取mysql中的数据）
Spark 连接hive 元数据库(mysql)

Spark（直接读取mysql中的数据）

两种方法的目的：进行mysql数据的数据清洗

方法一：

①执行

[root@head42 spark]# spark-shell --jars /opt/spark/jars/mysql-connector-java-5.1.38.jar

②执行

val df=spark.read.format("jdbc").option("delimiter",",").option("header","true").option("url","jdbc:mysql://192.168.56.103:3306/test").option("dbtable","customer").option("user","root").option("password","ok").load()
#"dbtable":mysql表名
df.show

若是出现：java.sql.SQLException: No suitable driver

执行：

[root@head42 ~]# cd /opt/hive/lib/
[root@head42 lib]# cp mysql-connector-java-5.1.38.jar /opt/spark/jars/

再重新运行上面代码

============================================================

方法二：

①创建sqoop,执行sqoop

#!/bin/bash
sqoop import \
--connect jdbc:mysql://localhost:3306/test \	#test:mysql的数据库
--table table_name \	
--username root \
--password ok \
--target-dir /data/mydata13 \ #指定数据存储在hdfs的路径
-m 1 #指定分几块

②进入hive创建外部表（外部表的数据是存储在hdfs上的）

create external table orders(
order_id int,
order_date timestamp,
order_customer_id int,
order_status string
)
row format delimited
fields terminated by ','
location '/data/mydata1'

然后在执行以下命令就可以在spark上进行数据的清洗

回到顶部

Spark 连接hive 元数据库(mysql)

方法一：

1)打开Hive metastore
[root@head42 ~]# hive --service metastore &
netstat -ano|grep 9083   ???
2)开启spark连接Mysql
[root@head42 ~]# spark-shell --conf spark.hadoop.hive.metastore.uris=thrift://localhost:9083
3）scala> spark.sql("show tables").show
spark.sql("select * from database_name.table_name")//访问其他数据库
+--------+--------------+-----------+
|database|     tableName|isTemporary|
+--------+--------------+-----------+
| default|      customer|      false|
| default|text_customers|      false|
+--------+--------------+-----------+
这样就Ok了!

方法二：

1）拷贝hive的hive-site.xml文件到spark的conf目录下

2）修改spark中hive-site.xml文件

添加以下：
<configuration>
<property>
  <name>hive.metastore.uris</name>
 <value>thrift://localhost:9083</value>
</property>
</configuration>

3）另建窗口启动：

[root@head42 conf]# hive --service metastore

4）启动spark:

[root@head42 conf]# spark-shell

5）测试：

spark.sql("select * from database_name.table_name").show//访问其他数据库的表格
scala> spark.sql("show tables").show
+--------+--------------+-----------+
|database|     tableName|isTemporary|
+--------+--------------+-----------+
| default|      customer|      false|
| default|text_customers|      false|
+--------+--------------+-----------+
这样就OK了！

posted on 2020-09-08 17:38 大码王阅读(581) 评论(0) 编辑收藏举报

刷新页面返回顶部

登录后才能查看或发表评论，立即登录或者逛逛博客园首页

公告

青青陵上柏，磊磊涧中石。

运行时长：2258天0小时56分39秒

您的浏览器不兼容canvas

昵称：大码王
园龄： 5年8个月
粉丝： 233
关注： 30

+加关注

2025年3月

日

一

二

三

四

五

六

随笔分类 (719)

clickhouse(4)

flink源码分析(2)

Groovy(1)

Java(34)

Linux(3)

office(10)

OpenStack入门(1)

Phoenix+hbase(11)

photoshop(10)

python之绘图(7)

python之爬虫(15)

python之入门到实战(26)

shell大全(1)

SparkCore(14)

sparkGraphx(2)

sparksql(8)

sparkstreaming(17)

spark源码分析(11)

博客园美化(6)

操作系统(1)

随笔档案 (693)

2024年5月(4)

2024年3月(3)

2023年9月(1)

2023年4月(2)

2023年3月(4)

2023年2月(1)

2022年12月(1)

2022年11月(1)

2022年9月(2)

2022年8月(17)

2022年7月(5)

2022年5月(3)

2022年4月(18)

2021年9月(1)

2021年6月(9)

2021年5月(19)

2021年2月(1)

2021年1月(17)

2020年12月(7)

2020年11月(19)

文章分类 (35)

airflow(4)

azkban(1)

canal(1)

Cassandra(1)

datax(1)

druid(1)

Elasticsearch(8)

java(11)

mongodb(2)

redis(3)

scala(2)

文章档案 (40)

2024年4月(2)

2023年5月(2)

2023年4月(1)

2023年1月(1)

2020年6月(9)

2020年5月(25)

Spark（直接读取mysql中的数据）

Spark 连接hive 元数据库(mysql)

公告

搜索

常用链接

最新随笔

积分与排名

随笔分类 (719)

随笔档案 (693)

文章分类 (35)

文章档案 (40)

阅读排行榜

评论排行榜

推荐排行榜

最新评论

喜欢请打赏

目录导航