dremio 的自服务语义层创建简单说明 - 荣锋亮 - 博客园

dremio 的自服务语义层创建简单说明

内容来自官方文档，介绍了一些关于dremio 的数据语义层的玩法

原则

分层
通过分层可以确保安全，性能以及可用性，dremio 提供了一个对于语义层的最佳实践
数据集的注释增强发现以及可理解性
可以通过tag 以及文档（wiki）进行数据的描述

最佳实践

使用1:1 的预处理层
此层的数据接近原始数据源，可以用来对于按需数据的组织，而不是所有的数据，这一层那个view 会映射到原始数据源中的数据
同时没有join 操作其他view
使用业务层进行数据集的逻辑join
这层的数据的做法

查询预处理层的资源，应该选择所有预处理层的列数据，典型是一个1:1 的映射
查询其他同一业务层的资源，当查询的时候应该以来业务层的数据，而不是预处理层的，这样可以缺少数据join 可以进行方便的传播
应该使用通用的术语进行业务实体的描述，同时也可以在此层中创建子层，那个包含特定主题数据，这些是可复用的，应该在业务线中是可复用的组件
典型的不应该在此层进行filter （包含行以及列数据），应该推迟到应用层
此层可以提升产品以及分析的主动权，最大化的减少重复，可以对于数据工程师提供自服务模型，可以方便的在数据消费者中进行共享，减少数据到业务线的服务交付

使用业务层对于数据消费进行组织
应该层view 主要是为了数据洗消费者进行组织,典型的场景包括数据分析，数据科学，如果应该层要提供一个dremio 语义服务的自服务访问，应该使用最小原则
如果此层不做为自服务提供，但是是对于特定应用的，此层应该依赖在应用层中的其他自服务视图，同时添加特定的应用业务逻辑，应该层可以基于应用进行row 的过滤
同时列的数据也可以进行减少
利用tag 进行可搜索性的增强
比如对于不同的业务组，同时也可以进行多个tag 的添加
使用wiki 内容进行数据集的装饰
wiki 可以方便人员对于数据的理解
使用数据血缘理解对象的关系
此功能实际上属于企业版的，可以方便知道数据的资源关系

说明

同时官方还有一个独立的关于语义层的最佳实践说明，很值得看看

参考资料

https://docs.dremio.com/current/help-support/lakehouse-arch/semantic
https://docs.dremio.com/current/help-support/best-practices/semantic_layer

posted on 2023-10-31 14:27 荣锋亮阅读(59) 评论(0) 编辑收藏举报

刷新页面返回顶部

登录后才能查看或发表评论，立即登录或者逛逛博客园首页

【推荐】还在用 ECharts 开发大屏？试试这款永久免费的开源 BI 工具！
【推荐】国内首个AI IDE，深度理解中文开发场景，立即下载体验Trae
【推荐】编程新体验，更懂你的AI，立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包，你的智能百科全书，全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell：AI 加持，快人一步

相关博文：

· dremio 的虚拟数据集市

· 基于dremio dbt 实现dremio 语义层建模的简单说明

· 阿里一面：谈一下你对DDD的理解？2W字，帮你实现DDD自由

· 新兴数据仓库设计与实践手册：从分层架构到实际应用（三）

· pojo层、dao层、service层、controller层的作用

阅读排行：
· 全程不用写代码，我用AI程序员写了一个飞机大战
· DeepSeek 开源周回顾「GitHub 热点速览」
· 记一次.NET内存居高不下排查解决与启示
· MongoDB 8.0这个新功能碉堡了，比商业数据库还牛
· .NET10 - 预览版1新功能体验（一）

历史上的今天：
2022-10-31 graylog 索引模版处理
2019-10-31 The Architectural Principles Behind Vrbo’s GraphQL Implementation
2019-10-31 graphql-compose graphql schema 生成工具集
2018-10-31 通过torodb && hasura graphql 让mongodb 快速支持graphql api
2018-10-31 torodb docker 运行试用
2018-10-31 scylladb docker 运行试用

导航

<

2025年3月

>

日

一

二

三

四

五

六

23

24

25

26

27

28

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

19

20

21

22

23

24

25

26

27

28

29

30

31

1

2

3

4

5

公告

昵称：荣锋亮
园龄： 11年6个月
粉丝： 153
关注： 0

最新随笔

随笔分类 (3865)

随笔档案 (4865)

文章分类 (205)

文章档案 (175)

.net 安全揭秘

.NET安全揭秘系列博文索引

DB

geohash 学习

graphql

graphql 指南

IE 浏览器

IE 浏览器

IIS

IIS 7 配置模块

IOT

win 10 树莓派 IOT

open xml

REST 设计

REST API 设计模式

sharepoint

sharepoint 配置

sql server CLR

sql server CLR

SSIS 学习

SSIS 学习

UML

UML

vsto

vsto

web

Web service

Calling ASP.NET Webservice using JavaScript on Regular Interval of Time

windows 服务

使用Topshelf创建Windows 服务

插件开发

firebreath 插件开发

复杂事件处理

技术

类库

流量分析

Google Analytics

敏捷

移动

运维

海量运维

阅读排行榜

评论排行榜

推荐排行榜

最新评论

1. Re:dremio 的 telemetry 处理简单说明
@colagy 添加dremio-telemetry.yaml 文件配置支持opentelemetry 的server地址就可以了，比如 tracing: type: opentelemetry se...
--荣锋亮
2. Re:dremio 的 telemetry 处理简单说明
请问怎么配置trace呢
--colagy
3. Re:通过instructor 对于LLM 进行结构化输出
@荣锋亮谢谢大佬指教...
--净乐思
4. Re:通过instructor 对于LLM 进行结构化输出
@净乐思你这个就不好说了，你得看你到底pdf 上需要提取啥信息，以及业务中pdf 的特点，pdf 大小等，一个建议是能优先直接提取的（不依赖大模型的，可以优先使用pdf 解析库处理），然后就是实际业...
--荣锋亮
5. Re:通过instructor 对于LLM 进行结构化输出
@荣锋亮你好大佬，我是从pdf中进行关键信息提取，基本上提取的数据类型都是string，请问该如何定义输出格式呢。...
--净乐思
6. Re:通过instructor 对于LLM 进行结构化输出
@净乐思看你的数据模式，如果是重复的可以使用列表，如果是多，但是并不是一类的，就写多个，核心还是结合你实际业务场景...
--荣锋亮
7. Re:通过instructor 对于LLM 进行结构化输出
博主你好，需要提取的字段很多，如何在结构化输出类中定义字段呢
--净乐思
8. Re:ollama qwen2 运行&openai 兼容api 测试
@荣锋亮好的非常感谢！...
--maxbread
9. Re:ollama qwen2 运行&openai 兼容api 测试
@maxbread 随便填写一个都行，不见得必须时ollama，只要是字符串，这个实际不check 是否正确...
--荣锋亮
10. Re:ollama qwen2 运行&openai 兼容api 测试
@荣锋亮那比如别的项目运行时需要openai api的地方填一个ollma就可以了吗？...
--maxbread
11. Re:ollama qwen2 运行&openai 兼容api 测试
@maxbread openai sdk 中随便填就行，ollama 的不check key 信息，就是为了兼容...
--荣锋亮
12. Re:ollama qwen2 运行&openai 兼容api 测试
您好！请问ollma兼容的openai api该怎么使用啊？例如有一个项目需要用到这个api，比如“["OPENAI_API_KEY"] = 'YOUR_OPENAI_API_KEY'”这里要使用的a...
--maxbread
13. Re:Quark 基于electron 的跨平台应用开发ide
quark浏览器以其简洁、高效、安全的特点赢得了广大用户的青睐。通过本文的介绍，相信大家已经对夸克浏览器有了更深入的了解。无论是日常浏览还是专业需求，夸克浏览器都能为用户提供出色的服务体验。赶紧去qu...
--浏览器爱好者
14. Re:openmetadata 构建说明
@hello,linux 你是不是没有不是git clone 的项目，构建是在git repo 中构建的吗...
--荣锋亮
15. Re:openmetadata 构建说明
您好，请问一下源码编译构建过程中，service模块构建出现空指针问题，怎么解决?代码分支为tag 1.4.4 ，我尝试了好几个分支都是出现这个问题，构建环境为 [root@94cd3ca7816a ...
--hello,linux
16. Re:基于dremio 安装包进行源码依赖包maven 私服重建的一个思路
使用linux，windows 会有各种问题，而且理论上官方是不支持windows了，我一般构建都是linux 或者mac 系统上
--荣锋亮
17. Re:基于dremio 安装包进行源码依赖包maven 私服重建的一个思路
大佬之前有遇到类似的错误吗？win10 maven的jdk按照要求的配置的，或者是要在linux上才能编译吗
--messliao
18. Re:基于dremio 安装包进行源码依赖包maven 私服重建的一个思路
@荣锋亮感谢...
--messliao
19. Re:基于dremio 安装包进行源码依赖包maven 私服重建的一个思路
@messliao 你项目root 目录，执行mvn clean install -DskipTests 就有了，那两个插件属于项目级的，需要先构建...
--荣锋亮
20. Re:基于dremio 安装包进行源码依赖包maven 私服重建的一个思路
@荣锋亮少了这两个maven插件...
--messliao
21. Re:基于dremio 安装包进行源码依赖包maven 私服重建的一个思路
@messliao 预计之后官方会提供完整的maven依赖吗？官方已经提供了，我前段时间也说明了，可以直接构建了，这种方法是如果实在没提供，但是希望自己构建的方法...
--荣锋亮
22. Re:基于dremio 安装包进行源码依赖包maven 私服重建的一个思路
预计之后官方会提供完整的maven依赖吗？
--messliao
23. Re:graylog MessageOutput 简单说明
@995- 你要导啥用户...
--荣锋亮
24. Re:graylog MessageOutput 简单说明
亮哥，graylog外部账户倒入是怎么处理的？
--995-
25. Re:JFrog Artifactory CE c&&c++ 包管理工具
@踏云我刚试了一些最新版本，看着没啥问题，可能是windows docker 的问题，我使用的是linux 系统这个可以参考下，实在不行找下jfrog 官方的issue...
--荣锋亮
26. Re:JFrog Artifactory CE c&&c++ 包管理工具
你好，请教个事情。【前置处理】：我是在windows上安装的Docker Desktop。【安装部署】：安装你的这条命令 docker run -d -p 8081:8081 docker.b...
--踏云
27. Re:sbom-tool 微软提供sbom工具
哈哈，谢谢你还记得我，npm、java的我都已经解决了，在集成 go和 Python 的时候发现生成的 sbom没有许可证信息，所以准备换sbom-tool试试，看到你这个文章所以想问下你转换后的情况...
--lunzi_fly
28. Re:sbom-tool 微软提供sbom工具
@lunzi_fly 我记得你以前问过，可以参考这个，合适就是把ci/cd 集成好...
--荣锋亮
29. Re:sbom-tool 微软提供sbom工具
请问博主，有试过转换后的 sbom.json使用dependency分析后，组件，漏洞、许可证信息全吗？
--lunzi_fly
30. Re:angie vod_module 模块的问题
点个赞
--995-
31. Re:sbom +dependencytrack 进行软件组件安全性分析
@lunzi_fly 你好，你是如何进行 npm进行生成前端代码 sbom.json的，命令可以参考下不里边已经写了，而且参考资料里边也有工具的资料...
--荣锋亮
32. Re:sbom +dependencytrack 进行软件组件安全性分析
你好，你是如何进行 npm进行生成前端代码 sbom.json的，命令可以参考下不
--lunzi_fly
33. Re:chaos-engineering 的一些开源工具
litmus、chaos blade这些也都开源了，还有个chaos mesh不清楚是否开源
--酒冽
34. Re:streamsets geoip 使用
@荣锋亮我也不太清楚是不是ip库的问题，就是从网上随便下载的一个ip库。您的微信多少，怎么添加您呢...
--一起随缘
35. Re:streamsets geoip 使用
@一起随缘博主您好，请问为什么解析的ip只能输出到国家，无法解析到具体的城市呢应该是可以到城市的，你看看是不是选择的ip库问题，streamsets现在不开源了，玩的少了，如果还有问题可以微信私聊...
--荣锋亮
36. Re:streamsets geoip 使用
博主您好，请问为什么解析的ip只能输出到国家，无法解析到具体的城市呢
--一起随缘
37. Re:cups+ippserver+cups4j 进行ipp 打印测试
而且这个也有可能是cups server字符编码配置有问题，可以尝试修改下cupsd.conf
--荣锋亮
38. Re:cups+ippserver+cups4j 进行ipp 打印测试
@李秀才后边没测了，周边没打印机，当时是临时在一个环境测试的，当时怀疑可能是client 包装处理的问题，你使用什么类型的打印机，还有有没有进行调试下，或者你可以跟下cups client看看它内部...
--荣锋亮
39. Re:cups+ippserver+cups4j 进行ipp 打印测试
兄弟，你后面打印中文乱码的问题解决了吗？我也碰到这个问题了。
--李秀才
40. Re:kestra 试用体验
感谢分享，看起来有点意思
--早呀早