03 2024 档案

dbt this macro 处理简单说明
摘要:dbt this macro提供了一种方便的对于当前模型展现的方法,可以使用在增量模型以及pre&post hooks 中 this 实际是就类似ref('<the_current_model>') 是一个relation 包含了database,schema 以及模型标识 使用示例 一个增量处理的 阅读全文

posted @ 2024-03-31 10:27 荣锋亮 阅读(12) 评论(0) 推荐(0) 编辑

hatch python 现代项目管理工具
摘要:hatch python 现代项目管理工具,以下是一些简单试用 安装 cli brew install hatch 一些推荐配置 这样我们的venv 直接在执行目录中,比较方便使用 hatch config set dirs.env.virtual .hatch 简单项目 cli hatch new 阅读全文

posted @ 2024-03-30 10:13 荣锋亮 阅读(161) 评论(0) 推荐(0) 编辑

dremio sqlalchemy poetry 模式包管理
摘要:比较有意思的是关于poetry setuptools entry_points 配置的,目前基于script 模式是有问题的,结果通过尝试 使用plugin 模式是可以的 参考配置 [tool.poetry.plugins."sqlalchemy.dialects"] "dremio.flight" 阅读全文

posted @ 2024-03-30 08:00 荣锋亮 阅读(5) 评论(0) 推荐(0) 编辑

dremio sqlalchemy 连接说明
摘要:实际上有社区已经有一个python包了,但是里边一些实现目前有一些问题(pip 包的,当然还有一些数据类型支持的问题) 我fork 进行了一些调整 一些问题 pandas 依赖 应该是pyarrow的调整,我在代码setup.py 添加了 supports_statement_cache 问题 我按 阅读全文

posted @ 2024-03-29 08:00 荣锋亮 阅读(26) 评论(0) 推荐(0) 编辑

dremio 异步读取但是没开启cache 的处理
摘要:dremio 对于文件系统支持异步读以及cache 处理,对于cache 的处理只有在开启异步读的时候 参考配置 开启异步数据访问 cache 配置 内部处理 实际上都使用的是ce cache 包中的,getAsyncByteReader 的调用,此方法是标准FileSystem的一个方法 File 阅读全文

posted @ 2024-03-28 08:00 荣锋亮 阅读(12) 评论(0) 推荐(0) 编辑

dremio QueryContext 简单说明
摘要:QueryContext 包含了查询相关的一些信息,官方代码注释说应该重名为PlanningContext,主要是在fragment contexts 中使用 接口扩展 如下图,实现了ResourceSchedulingContext以及OptimizerRulesContext 主要实例化的地方 阅读全文

posted @ 2024-03-27 08:00 荣锋亮 阅读(10) 评论(0) 推荐(0) 编辑

jinja2 通过Template. make_module 进行动态macro 创建以及macro 方法调用
摘要:实际属于一个小技巧,可以实现比较灵活的jinja2 扩展,是从dbt 对于macro 的处理部分学习到的 参考代码 app.py from jinja2 import Environment env = Environment() # 定义macro 的内容 macro_template = """ 阅读全文

posted @ 2024-03-26 15:26 荣锋亮 阅读(31) 评论(0) 推荐(0) 编辑

jinja2 实现return macro
摘要:设计上来自dbt 的return macro, 实际上就是一个macro 会触发一个exception 我们对于这个exception 单独捕获处理下 returnmacro 函数开发 return_macro 函数定义 def return_macro(values): raise MacroRe 阅读全文

posted @ 2024-03-26 15:24 荣锋亮 阅读(18) 评论(0) 推荐(0) 编辑

dbt return macro 内部实现简单说明
摘要:jinja2 默认是没有return macro 的,dbt 在实现的时候比较有意思,通过一个exception 触发的,以下是简单说明 参考使用 一个包含return 的macro {% macro demoapp(name,version) %} {% if version =='v1' %} 阅读全文

posted @ 2024-03-26 15:24 荣锋亮 阅读(6) 评论(0) 推荐(0) 编辑

cloudquery 开源ETL 框架
摘要:cloudquery 开源ETL 框架提供了基于plugin 的数据集成模式 包含的特性 开源,提供了sdk 快速,基于golang 轻量级协程,基于apache arrow 部署方便,就是一个独一的二进制文件 可扩展,cloudquery plugin 是无状态的,可以方便的扩展 说明 cloud 阅读全文

posted @ 2024-03-26 15:24 荣锋亮 阅读(128) 评论(0) 推荐(0) 编辑

minio __XLDIR__ 后缀文件夹问题
摘要:最近在通过debug 模式调试dremio 文件写入处理的时候,发现dremio 目录包含了不少__XLDIR__ 后缀的对象(里边是空的,只是后缀包含了__XLDIR__ ) 参考图 问题 目前此问题minio github 上也有一些信息,理论上应该是解决了,但是我目前使用的是比较新的版本的,大 阅读全文

posted @ 2024-03-26 08:00 荣锋亮 阅读(96) 评论(0) 推荐(0) 编辑

dremio ce kernel 提供的一些配置类
摘要:dremio ce kernel 包提供了不少对于dremio的扩展类,比如规则,parquet 读取,以及反射处理的,以下是一个简单说明 参考配置 标准的sabot-module.conf 文件 dremio: { classpath.scanning { packages += "com.dre 阅读全文

posted @ 2024-03-25 08:00 荣锋亮 阅读(5) 评论(0) 推荐(0) 编辑

dremio cloud cache 简单说明(二)
摘要:以前我介绍过关于cache 的CacheFileSystemWrapper,以下说明下关于cache 缓存以及加载的处理 参考配置 主要是在executor 节点的 services: { coordinator.enabled: false, coordinator.master.enabled: 阅读全文

posted @ 2024-03-24 08:00 荣锋亮 阅读(21) 评论(0) 推荐(0) 编辑

dremio AsyncStreamConf 简单说明
摘要:AsyncStreamConf 主要是关于异步以及cache 配置属性的参数配置,dremio 存储扩展不少都实现了此接口 参考实现 使用的地方 整体使用 存储插件基本都会使用到,包含了一些reader,同时还有文件系统的包装处理 ce CacheFileSystemWrapper 的使用 这个是d 阅读全文

posted @ 2024-03-23 08:39 荣锋亮 阅读(8) 评论(0) 推荐(0) 编辑

dremio 官方对于软件版ha 以及扩展部署的参考方案
摘要:关于dremio 实际大规模部署的记录,内容来自官方文档 dremio 组件架构参考图 此图包含了dremio 的ha 以及扩展,包含了主备Coordinator(故障转移的) 提高查询性能的Coordinator,以及进行实际查询的执行器此部署中依赖lb,共享存储(nfs 类的),zk (协调选举 阅读全文

posted @ 2024-03-22 09:28 荣锋亮 阅读(28) 评论(0) 推荐(0) 编辑

aiohttp unix socket 启动简单说明
摘要:aiohttp 官方推荐了不少部署模式,以下是关于unix socket 部署的简单说明 参考配置 web.py from aiohttp import web import argparse parser = argparse.ArgumentParser(description="aiohttp 阅读全文

posted @ 2024-03-22 08:24 荣锋亮 阅读(9) 评论(0) 推荐(0) 编辑

soda-data dremio 集成使用
摘要:以前简单介绍过soda 数据质量工具,以下是关于dremio 集成的一个说明 环境准备 dremio dremio 基于docker 部署,具体可以参考https://github.com/rongfengliang/dremio_cluster_docker-compose soda soda 包 阅读全文

posted @ 2024-03-22 08:00 荣锋亮 阅读(44) 评论(0) 推荐(0) 编辑

soda 数据质量测试工具
摘要:soda 数据质量测试工具,可以方便的集成到ci/cd 中,同时支持的数据库也不少,soda 同时还提供了一个强大的metrcis 检查语言基于yaml 配置文件就可以实现强大的数据质量检测(也支持输出数据格式为json,方便分析) 说明 soda 同时也提供了data contract 的支持,对 阅读全文

posted @ 2024-03-21 08:00 荣锋亮 阅读(78) 评论(0) 推荐(0) 编辑

dremio 自定义登陆以及简单sso
摘要:一个简单的dremio 集成自己外部登陆的,处理方法是通过nginx 进行proxy 同时开发自己的login 服务,此服务调用的dremio login api 对于自己的登陆页面调用自己开发的login api,然后将登陆信息写入到localstorage 中,之后进行一个dremio ngin 阅读全文

posted @ 2024-03-20 12:26 荣锋亮 阅读(50) 评论(0) 推荐(0) 编辑

dremio python odbc & pandas 集成示例代码
摘要:主要是一个记录,方便后续使用 参考代码 代码 import pyodbc import pandas host = "localhost" port = "32010" user = "admin" password = "admin123" ssl = "false" schema = "s3v2 阅读全文

posted @ 2024-03-20 08:00 荣锋亮 阅读(27) 评论(0) 推荐(0) 编辑

maven plugin debug 简单说明
摘要:有些时候我们希望对于maven plugin 进行调试(可能有bug),以下是一些简单说明 玩法 使用mvnDebug 直接替换mvn clone 或者将maven plugin 的jar 放到项目的classpath 中 添加remote jvm debug 并配置地址为mvnDebug提供的地址 阅读全文

posted @ 2024-03-19 08:01 荣锋亮 阅读(142) 评论(0) 推荐(0) 编辑

dremio SplitOrphansCleanerService 简单说明
摘要:SplitOrphansCleanerService 目前主要是清理一些孤立的split 服务(主要是对于namespaceservice) SplitOrphansCleanerService创建 DACDaemonModule 中,可以看出是分布式master 角色启动的(实际就是master 阅读全文

posted @ 2024-03-18 08:00 荣锋亮 阅读(8) 评论(0) 推荐(0) 编辑

SQLpage 基于sql 开发website 的工具
摘要:SQLpage 属于一个低代码工具,让我们可以通过sql 开发web 站点 包含的特点 简单 美观 快速 包含了比较丰富的web 组件 同时也提供了一些基本的功能,比如认证,变量,运行sql,读取文件 面向的人群 业务分析 可以基于动态处理 数据科学 原型以及分析 市场人员 工程师 产品管理人员 教 阅读全文

posted @ 2024-03-17 12:03 荣锋亮 阅读(256) 评论(0) 推荐(0) 编辑

hyper-db 试用
摘要:hyper-db 是tableau查询引擎的核心,tableau 官方也提供了比较完整的文档,可以方便学习使用,同时官方也提供了python,c++,java 的api 以下是一个简单试用,体验下hyper 的功能 参考代码 为了方便基于了python 运行,里边已经直接包含了hyper,使用起来比 阅读全文

posted @ 2024-03-17 08:00 荣锋亮 阅读(34) 评论(0) 推荐(0) 编辑

dremio-diagnostic-collector dremio集群分析工具
摘要:dremio-diagnostic-collector dremio集群分析工具,支持对于log 以及系统信息的获取,方便分析集群问题 说明 dremio-diagnostic-collector 是开源的,基于golang 编写,后边可以尝试下 参考资料 https://github.com/dr 阅读全文

posted @ 2024-03-16 08:00 荣锋亮 阅读(13) 评论(0) 推荐(0) 编辑

dremio starflake data reflections 简单说明
摘要:dremio 支持一类starflake data reflections ,比较有意思,以下是对于来自官方文档的一些说明 定义 starflake data reflections 就是反射会join 多个物理数据集,这些数据集部分或者全部是record-preserving join 特点 st 阅读全文

posted @ 2024-03-15 08:00 荣锋亮 阅读(21) 评论(0) 推荐(0) 编辑

dremio ControlsInjector 简单说明
摘要:ControlsInjector 在dremio 中的使用特别多,各种执行任务中都能看到它的影子 参考使用到的类 从下图可以看到使用到ControlsInjector的地方特别多,比如命令创建,fragment启动,dremio 的sql 优化器 参考实现 如下图是目前的实现类,包含了一个无操作的, 阅读全文

posted @ 2024-03-14 08:00 荣锋亮 阅读(6) 评论(0) 推荐(0) 编辑

dremio TemporaryFolderManager 简单说明
摘要:dremio 对于比较大的处理(聚合函数操作可能会触发spill,同时会方法临时文件中),对于比较频繁的job 查询可能会有不少临时文件 TemporaryFolderManager核心是为了进行这些临时文件的管理,包括清理,创建,已经对于临时异常执行器节点的文件处理,对于清理 处理dremio 没 阅读全文

posted @ 2024-03-13 08:00 荣锋亮 阅读(8) 评论(0) 推荐(0) 编辑

python singledispatch 使用简单说明
摘要:singledispatch 可以实现类似方法的范型能力,以下是使用的简单说明 方法 参考代码 from functools import singledispatch @singledispatch def add(a,b): return f"default {a}-{b}" @add.regi 阅读全文

posted @ 2024-03-12 19:55 荣锋亮 阅读(86) 评论(0) 推荐(0) 编辑

python asgi 框架资料
摘要:asgi 是支持python 异步的python web 服务器,框架和应用程序之间的标准接口,目前不少框架已经支持了目前github 上有一个不错的项目,里边包含了各类支持以及实现了asgi 的框架,值得学习 awesome-asgi 参考资料 https://github.com/encode/ 阅读全文

posted @ 2024-03-12 09:47 荣锋亮 阅读(28) 评论(0) 推荐(0) 编辑

dremio ResultsCleanupService 服务简单说明
摘要:dremio 支持对于jobresult 的定时清理,jobresult 的清理可以减少不少存储空间,尤其查询比较多的时候,默认dremio 每个执行的查询会对于 结果集进行本地cache,同时展示使用,同时sys.job_results.<jobid> 也会使用此数据 服务创建 DACDaemon 阅读全文

posted @ 2024-03-12 08:00 荣锋亮 阅读(10) 评论(0) 推荐(0) 编辑

gleam 类型安全的编程语言
摘要:gleam 类型安全的新编程语言,基于rust 开发,编程语法上与rust 特性类似,runtime 基于了erlang 特点 支持函数式编程 基于erlang runtime (当然也就包含了不少erlang 的特性了) 包含了完整的工具连(编译器,构建工具,格式化工具,编辑器集成,包管理) 可以 阅读全文

posted @ 2024-03-11 11:31 荣锋亮 阅读(106) 评论(0) 推荐(0) 编辑

dremio 分布式存储配置与hdfs core-site.xml 的关系简单说明
摘要:如果了解dremio 新版本的话,推荐使用的就是分布式存储,同时dremio 也提供了不少的支持,比如hdfs,s3,nas。。。 对于分布式存储的配置,官方文档说明的是基于core-ste.xml ,如果不了解内部机制的话,可能比较疑惑,为什么需要这个配置 以下进行一些说明 分布式配置参考 min 阅读全文

posted @ 2024-03-11 08:01 荣锋亮 阅读(22) 评论(0) 推荐(0) 编辑

dremio SetOptionHandler 简单说明
摘要:SetOptionHandler 可以进行基于sql 的配置处理,以下是一个简单说明 SetOptionHandler 的创建 是在CommandCreator中 参考代码 case SET_OPTION: if (sqlNode instanceof SqlAlterTableSetOption) 阅读全文

posted @ 2024-03-10 08:00 荣锋亮 阅读(5) 评论(0) 推荐(0) 编辑

dremio SafeExit处理流程简单说明
摘要:dremio的SafeExit实现了服务的安全退出,确保job 任务可以正确处理(当服务关闭的时候,没有处理的任务可以正常处理完成),以下是一个简单 处理流程说明 整体SafeExit 说明 目前dremio对于SafeExit的处理,核心是在NodeRegistration 中处理的,具体的触发是 阅读全文

posted @ 2024-03-09 08:00 荣锋亮 阅读(6) 评论(0) 推荐(0) 编辑

resurfaceio goreplay output-resurface 处理简单说明
摘要:resurfaceio goreplay output-resurface 的处理实际上就是开发了一个新的output 插件,对于数据的写入是使用了 resurfaceio 的golang logger sdk 实现简单说明 output_resurface.go,核心就是一个标准的goreplay 阅读全文

posted @ 2024-03-08 09:30 荣锋亮 阅读(4) 评论(0) 推荐(0) 编辑

dremio sys.job_results.<jobid> 内部处理简单说明
摘要:dremio 支持一种基于select * from sys.job_results.<jobid> 格式的job result 查询,实际上不是物理表,而是vds,以下是一些简单说明 参考请求图 如下,可以看出,对于上边格式的sql 查询使用的是SysFlightStoragePlugin 存储插 阅读全文

posted @ 2024-03-08 08:00 荣锋亮 阅读(21) 评论(0) 推荐(0) 编辑

scalene python cpu&gpu 性能分析工具
摘要:scalene 使用一个python cpu&gpu 性能分析工具,同时也支持内存的分析,同时还提供了基于ai的智能优化推荐 包含的一些特性 cli 支持多种输出格式 包含了一个web-gui 基于ai 的智能提示 参考使用 安装 pip install scalene 包含的cli usage: 阅读全文

posted @ 2024-03-07 14:47 荣锋亮 阅读(156) 评论(0) 推荐(0) 编辑

memray python 内存profiler 工具简单试用
摘要:memray python 内存profiler 工具,功能还是很强大的,以下是一个简单使用 参考使用 安装 pip install memray 支持的cli usage: memray [-h] [-v] [-V] {run,flamegraph,table,live,tree,parse,su 阅读全文

posted @ 2024-03-07 14:47 荣锋亮 阅读(270) 评论(0) 推荐(0) 编辑

dremio sql 编辑器自动提示服务简单说明
摘要:dremio 以前代码自动提示的是一个独立的service,之后统一调整到dac的backend 中了,以下是关于实现的一个简单说明 服务接口 sql 自动提示,实际上是基于前端与后段集成起来实现的,前端部分我先不介绍,核心主要说明下关于后端部分 接口 @POST @Path("/autocompl 阅读全文

posted @ 2024-03-07 08:00 荣锋亮 阅读(24) 评论(0) 推荐(0) 编辑

resurfaceio 参考架构
摘要:resurfaceio 是graylog 开发的一个api 安全解决方案,设计上使用了不少开源的东西,目前并不完全开源但是通过官方文档介绍,可以看到一些机制 参考架构图 简单说明: resurfaceio 对于api 安全的处理是通过三大方式解决的,第一中是基于sdk 集成,写入请求信息到resur 阅读全文

posted @ 2024-03-06 17:49 荣锋亮 阅读(10) 评论(0) 推荐(0) 编辑

dremio ViewCreatorFactory 简单说明
摘要:ViewCreatorFactory 是dremio 中专门管理view 的,目前主要是对于space 以及home 中的处理,当然对于source 也是可以支持的(支持版本类型的,比如nessie,原始分布式文件系统的实际也是可以支持的,但是不太符合dremio的玩法,以及限定死了) 调用部分 实 阅读全文

posted @ 2024-03-06 08:01 荣锋亮 阅读(12) 评论(0) 推荐(0) 编辑

resurfaceio goreplay output-s3 minio 兼容处理
摘要:实际上此问题与以前版本goreplay对于s3 的支持是一样的 参考处理 添加了新的环境变量AWS_FORCE_PATH_STYLE以及AWS_DISABLE_SSL,具体代码在rongfengliang/goreplay-new/blob/resurface/s3_reader.go 中 参考使用 阅读全文

posted @ 2024-03-05 16:37 荣锋亮 阅读(6) 评论(0) 推荐(0) 编辑

resurfaceio gor linux 二进制包
摘要:resurfaceio的gor 是对于开源版本的修改 (比如开启了企业特性,同时添加了对于resurfaceio http output 的支持),为了方便对于linux 系统的使用 我拉取了官方镜像,将二进制文件放到github 了https://github.com/rongfengliang/ 阅读全文

posted @ 2024-03-05 13:18 荣锋亮 阅读(16) 评论(0) 推荐(0) 编辑

resurfaceio graylog 的api 安全方案
摘要:resurfaceio 是graylog 的api 安全方案,包含的特性 特性 简易的api 调用捕捉 立即攻击以及异常的rest 以及graphql api 处理 基于webhook ,sql 查询,以及数据导出自动化处理 快速部署本地或者基于k8s 的云环境 架构设计 resurfaceio 对 阅读全文

posted @ 2024-03-05 13:10 荣锋亮 阅读(12) 评论(0) 推荐(0) 编辑

flyte 开源工作流调度平台
摘要:flyte 开源工作流调度平台,支持数据,机器学习,flyte 基于golang 开发运行在k8s中,但是支持python,java,scala 等开发语言flyte 支持不少外部集成,比如sql,dbt,great_expectations,duckdb,mlflow,onnx ,modin 等 阅读全文

posted @ 2024-03-05 11:17 荣锋亮 阅读(101) 评论(0) 推荐(0) 编辑

dremio 文件系统支持view创建&一些问题
摘要:实际上如果了解apache drill 会知道drill 是支持在本地活着分布式创建view,实际上dremio 也是可以支持的,但是 此玩法不太符合官方的设计思想,给禁用了 FileSystemPlugin check 处理 参考代码 public boolean createOrUpdateVi 阅读全文

posted @ 2024-03-05 08:01 荣锋亮 阅读(16) 评论(0) 推荐(0) 编辑

minio sql 查询parquet文件
摘要:minio 支持sql 查询操作,属于一个比较方便的功能,对于parquet 功能的支持默认没开启,需要配置 参考配置 基于docker-compose 核心是MINIO_API_SELECT_PARQUET: on version: "3" services: minio: image: mini 阅读全文

posted @ 2024-03-04 22:41 荣锋亮 阅读(135) 评论(0) 推荐(0) 编辑

dremio 查询执行阶段简单说明
摘要:内容实际来自官方架构介绍,图以前也在博客中放过,现在进行说明下 参考执行图 阶段说明 参考上图,dremio将执行分为可4个阶段 客户端通过jdbc,odbc,rest 提交查询到协调节点 计划阶段 此阶段可以细分3步 a. 协调节点解析查询为dremio的通用关系模型 b. 协调节点基于数据源的统 阅读全文

posted @ 2024-03-04 08:00 荣锋亮 阅读(42) 评论(0) 推荐(0) 编辑

dremio ProfileStore 简单说明
摘要:以前简单说明过dremio 的jobprofile query,现在简单说明下dremio ProfileStore 参考实现 如下图,实际上只有一个LocalProfileStore,数据是存储咱爱kv storage 中的,但是对于kv 存储的只有完成的profile,其他阶段的数据是直接存储在 阅读全文

posted @ 2024-03-03 08:00 荣锋亮 阅读(10) 评论(0) 推荐(0) 编辑

Open Data Contract Standard(ODCS) data contracts 标准
摘要:ODCS 属于一个linux 基金会项目,目前处于沙箱阶段 包含的特性 data contracts 框架 Fundamentals,Datasets & Schema,Data Quality,Pricing,Stakeholders,Security,Sevice-Level agreement 阅读全文

posted @ 2024-03-02 08:49 荣锋亮 阅读(17) 评论(0) 推荐(0) 编辑

通过@vercel/ncc 优化node npm 项目的大小
摘要:以前我写过关于使用@vercel/ncc 进行node 应用快速部署的,同时对于node 应用的大小会减少不少 app 参考玩法 简单说明:简单玩法可以直接基于ncc 构建就行了,我们可以all-in-one 然后基于ncc build, 会自动处理我们的依赖包,然后我们的项目复制构建之后目录的文件 阅读全文

posted @ 2024-03-02 08:00 荣锋亮 阅读(106) 评论(0) 推荐(0) 编辑

dremio jobprofile查询简单说明
摘要:dremio提供了方便的jobprofile 能力,可以进行共享以及分析dremio 查询的性能问题,以下是关于jobprofile 下载功能的简单说明 下载处理 SupportResource.java @POST @Path("download") @Consumes(MediaType.APP 阅读全文

posted @ 2024-03-02 08:00 荣锋亮 阅读(20) 评论(0) 推荐(0) 编辑

data contracts 参考资料
摘要:基于data contracts 的数据质量处理似乎是一个很不错的数据开发模式,机制上比较类似微服务开发中的service contracts 我们基于契约对于数据的生产者以及消费者进行约定,确保数据的质量,提高数据团队的协作,同时还有不少工具可以参考 说明 open-data-contract-s 阅读全文

posted @ 2024-03-01 08:01 荣锋亮 阅读(8) 评论(0) 推荐(0) 编辑

dremio web ui手工format 处理简单说明
摘要:以前我介绍过通过自动提升处理format,当然dremio也支持手工操作,对于处理包含了文件以及文件夹类型的,我主要说下 关于文件夹的 处理简单说明 对于ui部分是首先进行预处理,获取可能的类型格式,然后就是通过格式预览服务进行数据处理 folder_format参考处理 代码 包含了一个快速以及默 阅读全文

posted @ 2024-03-01 08:00 荣锋亮 阅读(16) 评论(0) 推荐(0) 编辑

dremio CTAS 与数据DML 操作
摘要:dremio对于文件系统支持CTAS (s3,nas,hdfs。。。),以前版本默认创建是是parquet 格式的文件,新版本默认使用iceberg 格式 基于iceberg 的格式很有意思,我们不只可以进行数据的显式物化,同时还可以进行数据的多DML,同时还能复用iceberg 强大的数据管理 能 阅读全文

posted @ 2024-03-01 08:00 荣锋亮 阅读(23) 评论(0) 推荐(0) 编辑

导航