前言
不以完美记录做为目标。以记录自己学习过程为主线,进行记录,记录通过实践,来了解原理,并把这个实践过程分享给后来需要学习的同学。本节:了解hive catalog与hadoop catalog的区别,进行认识
1. 建立 hive catalog,建表
创建hive_catalog与表
CREATE CATALOG hive_catalog4 WITH (
'type'='iceberg',
'catalog-type'='hive',
'uri'='thrift://hadoop101:9083',
'clients'='5',
'property-version'='1',
'warehouse'='hdfs:user/hive/warehouse/hive_catalog4'
);
在hive_catalog下创建数据库
use catalog hive_catalog4;
CREATE TABLE `hive_catalog4`.`default`.`sample` ( id BIGINT COMMENT 'unique id', data STRING );
2. 查看hdfs
[root@hadoop101 ~]# hadoop fs -ls -R /user/hive/warehouse/sample/
drwxr-xr-x - root supergroup 0 2022-01-18 15:23 /user/hive/warehouse/sample/metadata
-rw-r--r-- 2 root supergroup 1150 2022-01-18 15:23 /user/hive/warehouse/sample/metadata/00000-a426dad1-4ec5-43d0-a7c8-f82601c3d055.metadata.json
3. 写入数据到iceberg
Flink SQL> insert into `hive_catalog4`.`default`.`sample` values(1,'first line');
[INFO] Submitting SQL update statement to the cluster...
[INFO] Table update statement has been successfully submitted to the cluster:
Job ID: 57b4c09b1be6206a2d7a56410444521e
4. 检查写入后,表目录结构的变化
}[root@hadoop101 ~]# hadoop fs -ls -R /user/hive/warehouse/sample/
drwxr-xr-x - root supergroup 0 2022-01-18 15:36 /user/hive/warehouse/sample/data
-rw-r--r-- 2 root supergroup 721 2022-01-18 15:36 /user/hive/warehouse/sample/data/00001-0-c2e5157c-14da-4e49-8ef1-11d0d9266e3c-00001.parquet
drwxr-xr-x - root supergroup 0 2022-01-18 15:36 /user/hive/warehouse/sample/metadata
-rw-r--r-- 2 root supergroup 1150 2022-01-18 15:23 /user/hive/warehouse/sample/metadata/00000-a426dad1-4ec5-43d0-a7c8-f82601c3d055.metadata.json
-rw-r--r-- 2 root supergroup 2180 2022-01-18 15:36 /user/hive/warehouse/sample/metadata/00001-8374a8ad-ccee-4eda-9944-e3ac8c7ea085.metadata.json
-rw-r--r-- 2 root supergroup 5785 2022-01-18 15:36 /user/hive/warehouse/sample/metadata/a3ba6a34-0074-421b-a3fe-8e31e2db1546-m0.avro
-rw-r--r-- 2 root supergroup 3758 2022-01-18 15:36 /user/hive/warehouse/sample/metadata/snap-7791812362316409514-1-a3ba6a34-0074-421b-a3fe-8e31e2db1546.avro
发现:数据写入了data目录,metadata发生变化,老的metadata不变,变化以增量文件的形式进行记录。hive catalog还是做了所有hadoop catalog的事情。
总结
数据写入了data目录,metadata发生变化,老的metadata不变,变化以增量文件的形式进行记录。hive catalog还是做了所有hadoop catalog的事情。本文来自博客园,作者:大码王,转载请注明原文链接:https://www.cnblogs.com/huanghanyu/