关闭页面特效

开课啦！走进大数据讲堂，一文从0到1学习数据湖Paimon（实践篇一）之集成spark实战演练？助力数据湖面试

阅读目录

第4章集成 Spark 引擎

回到顶部

第4章集成 Spark 引擎

4.1 环境准备

Paimon 目前支持 Spark 3.4、3.3、3.2 和 3.1。课程使用的Spark版本是3.3.1。

1）上传并解压Spark安装包

tar -zxvf spark-3.3.1-bin-hadoop3.tgz -C /opt/module/

mv /opt/module/spark-3.3.1-bin-hadoop3 /opt/module/spark-3.3.1

2）配置环境变量

sudo vim /etc/profile.d/my_env.sh

export SPARK_HOME=/opt/module/spark-3.3.1

export PATH=$PATH:$SPARK_HOME/bin

source /etc/profile.d/my_env.sh

3）拷贝paimon的jar包到Spark的jars目录

拷贝jar报到spark的jars目录（也可以运行时 --jars）

下载地址：https://repository.apache.org/snapshots/org/apache/paimon/paimon-spark-3.3/0.5-SNAPSHOT/

cp paimon-spark-3.3-0.5-20230703.002437-65.jar /opt/module/spark/jars

4.2 Catalog

启动spark-sql时，指定Catalog。切换到catalog后，Spark现有的表将无法直接访问，可以使用spark_catalog. ${database_name}.$ {table_name}来访问Spark表。

注册catalog可以启动时指定，也可以配置在spark-defaults.conf中

4.2.1 文件系统

spark-sql \

–conf spark.sql.catalog.fs=org.apache.paimon.spark.SparkCatalog \

–conf spark.sql.catalog.fs.warehouse=hdfs://hadoop102:8020/spark/paimon/fs

其中，参数前缀为：spark.sql.catalog.<catalog名称>

USE fs.default;

4.2.2 Hive

1）启动hive的metastore服务

nohup hive --service metastore &

2）启动时注册Catalog

spark-sql \

  --conf spark.sql.catalog.hive=org.apache.paimon.spark.SparkCatalog \

  --conf spark.sql.catalog.hive.warehouse=hdfs://hadoop102:8020/spark/paimon/hive \

  --conf spark.sql.catalog.hive.metastore=hive \

  --conf spark.sql.catalog.hive.uri=thrift://hadoop102:9083

切换到该catalog下的default数据库：

USE hive.default;

3）禁用 Hive ACID（Hive3）

hive.strict.managed.tables=false

hive.create.as.insert.only=false

metastore.create.as.acid=false

使用hive Catalog通过alter table更改不兼容的列类型时，参见 HIVE-17832。需要配置

hive.metastore.disallow.inknown.col.type.changes=false

4.3 DDL

4.3.1 建表

4.3.1.1 管理表

在 Paimon Catalog中创建的表就是Paimon的管理表，由Catalog管理。当表从Catalog中删除时，其表文件也将被删除，类似于Hive的内部表。

1）创建表

CREATE TABLE tests (

  user_id BIGINT,

  item_id BIGINT,

  behavior STRING,

  dt STRING,

  hh STRING

) TBLPROPERTIES (

  'primary-key' = 'dt,hh,user_id'

);

2）创建分区表

CREATE TABLE tests_p (

  user_id BIGINT,

  item_id BIGINT,

  behavior STRING,

  dt STRING,

  hh STRING

) PARTITIONED BY (dt, hh) 

TBLPROPERTIES (

  'primary-key' = 'dt,hh,user_id'

);

通过配置partition.expiration-time，可以自动删除过期的分区。

如果定义了主键，则分区字段必须是主键的子集。

可以定义以下三类字段为分区字段：

创建时间（推荐）：创建时间通常是不可变的，因此您可以放心地将其视为分区字段并将其添加到主键中。

事件时间：事件时间是原表中的一个字段。对于CDC数据来说，比如从MySQL CDC同步的表或者Paimon生成的Changelogs，它们都是完整的CDC数据，包括UPDATE_BEFORE记录，即使你声明了包含分区字段的主键，也能达到独特的效果。

CDC op_ts：不能定义为分区字段，无法知道之前的记录时间戳。

3）Create Table As

表可以通过查询的结果创建和填充，例如，我们有一个这样的sql： CREATE TABLE table_b AS SELECT id, name FORM table_a, 生成的表table_b将相当于创建表并插入数据以下语句：CREATE TABLE table_b(id INT, name STRING); INSERT INTO table_b SELECT id, name FROM table_a;

使用CREATE TABLE AS SELECT时我们可以指定主键或分区。

CREATE TABLE tests1(

  user_id BIGINT,

  item_id BIGINT

);

CREATE TABLE tests2 AS SELECT * FROM tests1;
-- 指定分区

CREATE TABLE tests2_p PARTITIONED BY (dt) AS SELECT * FROM tests_p;

-- 指定配置

CREATE TABLE tests3(

    user_id BIGINT,

    item_id BIGINT

) TBLPROPERTIES ('file.format' = 'orc');

CREATE TABLE tests3_op TBLPROPERTIES ('file.format' = 'parquet') AS SELECT * FROM tests3;

 

-- 指定主键

CREATE TABLE tests_pk TBLPROPERTIES ('primary-key' = 'dt') AS SELECT * FROM tests;

 

 

-- 指定主键和分区

CREATE TABLE tests_all PARTITIONED BY (dt) TBLPROPERTIES ('primary-key' = 'dt,hh') AS SELECT * FROM tests_p;

4）表属性

用户可以指定表属性来启用Paimon的功能或提高Paimon的性能。有关此类属性的完整列表，请参阅配置https://paimon.apache.org/docs/master/maintenance/configurations/。

CREATE TABLE tbl(

  user_id BIGINT,

  item_id BIGINT,

  behavior STRING,

  dt STRING,

  hh STRING

) PARTITIONED BY (dt, hh) 

TBLPROPERTIES (

  'primary-key' = 'dt,hh,user_id',

  'bucket' = '2',

  'bucket-key' = 'user_id'

);

4.3.1.2 外部表

外部表由Catalog记录但不管理。如果删除外部表，其表文件不会被删除，类似于Hive的外部表。

Paimon 外部表可以在任何Catalog中使用。如果您不想创建Paimon Catalog而只想读/写表，则可以考虑外部表。

Spark3仅支持通过Scala API创建外部表。以下 Scala 代码将位于 hdfs:///path/to/table 的表加载到 DataSet 中。

val dataset = spark.read.format(“paimon”).load(“hdfs:///path/to/table”)

4.3.2 修改表

4.3.2.1 修改表

1）更改/添加表属性

ALTER TABLE tests SET TBLPROPERTIES (

  'write-buffer-size' = '256 MB'

);

2）重命名表名称

ALTER TABLE tests1 RENAME TO tests_new;

3）删除表属性

ALTER TABLE tests UNSET TBLPROPERTIES ('write-buffer-size');

4.3.2.2 修改列

1）添加新列

ALTER TABLE tests ADD COLUMNS (c1 INT, c2 STRING);

2）重命名列名称

ALTER TABLE tests RENAME COLUMN c1 TO c0;

3）删除列

ALTER TABLE my_table DROP COLUMNS(c0, c2);

4）更改列的可为空性

CREATE TABLE tests_null(

id INT, 

coupon_info FLOAT NOT NULL

);

-- Spark只支持将not null改为 nullable

ALTER TABLE tests_null ALTER COLUMN coupon_info DROP NOT NULL;

5）更改列注释

ALTER TABLE tests ALTER COLUMN user_id COMMENT 'user id'

6）添加列位置

ALTER TABLE tests ADD COLUMN a INT FIRST;

ALTER TABLE tests ADD COLUMN b INT AFTER a;

注意：这种操作在hive中是不允许的，使用hive catalog无法执行，需要关闭hive的参数限制：

vim /opt/module/hive/conf/hive-site.xml;

  <property>

    <name>hive.metastore.disallow.incompatible.col.type.changes</name>

    <value>false</value>

  </property>

重启hive metastore服务。

7）更改列位置

ALTER TABLE tests ALTER COLUMN b FIRST;

ALTER TABLE tests ALTER COLUMN a AFTER user_id;

8）更改列类型

ALTER TABLE tests ALTER COLUMN a TYPE DOUBLE;

posted on 2024-03-02 15:22 大码王阅读(149) 评论(0) 编辑收藏举报

刷新页面返回顶部

登录后才能查看或发表评论，立即登录或者逛逛博客园首页

· 开课啦！走进大数据讲堂，一文从0到1学习数据湖Paimon（实践篇二）之集成spark实战演练？助力数据湖面试

· 新一代开源流数据湖平台Apache Paimon入门实操-上

· Spark3.1.2与Iceberg0.12.1整合-hadoop和hive的catalog，DDL，隐藏分区（按年，月，天，小时），create(replace) T as select ..., drop,列的增加删除和改名。

· Paimon数据湖

阅读排行：
· 全网最简单！3分钟用满血DeepSeek R1开发一款AI智能客服，零代码轻松接入微信、公众号、小程
· .NET 10 首个预览版发布，跨平台开发与性能全面提升
· 《HelloGitHub》第 107 期
· 从文本到图像：SSE 如何助力 AI 内容实时呈现？（Typescript篇）
· 全程使用 AI 从 0 到 1 写了个小工具

公告

青青陵上柏，磊磊涧中石。

运行时长：2251天3小时57分17秒

您的浏览器不兼容canvas

昵称：大码王
园龄： 5年8个月
粉丝： 232
关注： 30

+加关注

2025年3月

日

一

二

三

四

五

六

随笔分类 (719)

clickhouse(4)

flink源码分析(2)

Groovy(1)

Java(34)

Linux(3)

office(10)

OpenStack入门(1)

Phoenix+hbase(11)

photoshop(10)

python之绘图(7)

python之爬虫(15)

python之入门到实战(26)

shell大全(1)

SparkCore(14)

sparkGraphx(2)

sparksql(8)

sparkstreaming(17)

spark源码分析(11)

博客园美化(6)

操作系统(1)

随笔档案 (693)

2024年5月(4)

2024年3月(3)

2023年9月(1)

2023年4月(2)

2023年3月(4)

2023年2月(1)

2022年12月(1)

2022年11月(1)

2022年9月(2)

2022年8月(17)

2022年7月(5)

2022年5月(3)

2022年4月(18)

2021年9月(1)

2021年6月(9)

2021年5月(19)

2021年2月(1)

2021年1月(17)

2020年12月(7)

2020年11月(19)

文章分类 (35)

airflow(4)

azkban(1)

canal(1)

Cassandra(1)

datax(1)

druid(1)

Elasticsearch(8)

java(11)

mongodb(2)

redis(3)

scala(2)

文章档案 (40)

2024年4月(2)

2023年5月(2)

2023年4月(1)

2023年1月(1)

2020年6月(9)

2020年5月(25)

第4章集成 Spark 引擎

4.1 环境准备

4.2 Catalog

4.2.1 文件系统

4.2.2 Hive

4.3 DDL

4.3.1 建表

4.3.2 修改表

公告

搜索

常用链接

最新随笔

积分与排名

随笔分类 (719)

随笔档案 (693)

文章分类 (35)

文章档案 (40)

阅读排行榜

评论排行榜

推荐排行榜

最新评论

喜欢请打赏

目录导航

第4章 集成 Spark 引擎

4.1 环境准备

4.2 Catalog

4.2.1 文件系统

4.2.2 Hive

4.3 DDL

4.3.1 建表

4.3.2 修改表

公告

搜索

常用链接

最新随笔

积分与排名

随笔分类 (719)

随笔档案 (693)

文章分类 (35)

文章档案 (40)

阅读排行榜

评论排行榜

推荐排行榜

最新评论

喜欢请打赏

目录导航

第4章集成 Spark 引擎