随笔分类 -  数据虚拟化

上一页 1 2 3 4 5 6 7 8 9 ··· 22 下一页

dremio DatasetHandle 简单说明
摘要:DatasetHandle 主要是关于dataset handle 处理的,不同存储插件会有不同的具体实现,同时不同的表格式也会有不同的实现(iceberg,parquet) 功能简单介绍 主要是关于dataset如何处理的handle,实际的实现会包含一些上下文信息,当进行其他api 调用的时候 阅读全文

posted @ 2024-02-19 08:01 荣锋亮 阅读(15) 评论(0) 推荐(0) 编辑

dremio source 禁用source 不可用禁止移除与反射的一些问题
摘要:实际上dremio 的反射比较有意思,而且也比较强大,比如我们可以会想通过反射,当上游系统不可用的时候依然可以查询 但是实际效果并不是这样的 参考配置 如下 问题 The source [s3] is currently unavailable. Metadata is not accessible 阅读全文

posted @ 2024-02-18 08:00 荣锋亮 阅读(25) 评论(0) 推荐(0) 编辑

dremio SystemStoragePluginInitializer 简单说明
摘要:以前在关于ManagedStoragePlugin部分,简单说明了下SystemStoragePluginInitializer,今天再明确说明下 SystemStoragePluginInitializer 的特点 继承自Initializer接口,可以实现一些轻量级服务的启动 SystemSto 阅读全文

posted @ 2024-02-16 08:01 荣锋亮 阅读(4) 评论(0) 推荐(0) 编辑

dremio 的InformationSchemaCatalog 服务三
摘要:以前简单写过一些关于dremio 的InformationSchemaCatalog ,也说过dremio 为了方便提供标准的INFORMATION_SCHEMA 自己开发了存储扩展,以下是关于存储扩展的创建以及刷新说明 创建 创建是在CatalogService 中处理的,具体的实现是Catalo 阅读全文

posted @ 2024-02-10 08:00 荣锋亮 阅读(21) 评论(0) 推荐(0) 编辑

dremio FileSystem 简单说明
摘要:dremio 尽管对于文件系统的使用很多底层都是hdfs 的(s3,发射加速),dremio 为了减少直接依赖hdfs,自己抽象了一个FileSystem 接口 对于不同的实现可以方便进行扩展,当然和刚才说的一样,不少底层依赖的是hdfs 的FileSystem 参考子类 如下图 简单说明: Fil 阅读全文

posted @ 2024-02-07 08:00 荣锋亮 阅读(39) 评论(0) 推荐(0) 编辑

dremio cloud cache 简单说明
摘要:dremio cloud cache 实际上就是对于云文件系统的cache加速(比如hdfs,s3。。。),在处理的时候使用了ce 包装的包,详细源码并没有开源 我们可以通过一些代码整体看下实现 参考处理 dremio-ce-services-cachemanager 中的处理 ce caache 阅读全文

posted @ 2024-02-06 08:00 荣锋亮 阅读(12) 评论(0) 推荐(0) 编辑

dremio 下载大量查询结果数据的一个技巧
摘要:dremio 可以对查询结果进行下载(csv,json,parquet格式的),但是目前有一个100万的限制,实际上一般是够用了,但是很多时候大家可能 希望对于查询的结果进行存储(比如进行进一步的分发),以下是一个技巧 默认下载的处理 从处理上就是dremio 的查询job,将查询结果存储到一个__ 阅读全文

posted @ 2024-02-05 15:10 荣锋亮 阅读(28) 评论(0) 推荐(0) 编辑

dremio 官方一篇关于使用了到的技术进行对象存储查询加速的博客
摘要:dremio 官方发布了一篇新博客是关于如何实现对象存储的快速查询的 使用的技术 主要是apche arrow,reflections, columnar cloud cache (c3) 说明 博客内容很简单,主要是进行了一个介绍,详细的可以看看里边的内容,同时里边包含了不少链接值得学习下 参考资 阅读全文

posted @ 2024-02-03 19:40 荣锋亮 阅读(24) 评论(0) 推荐(0) 编辑

dremio 服务暴露的一些端口
摘要:对于运行态的dremio 我们可以看到服务开启的监听,同时也可以通过官方提供的配置文件看到 dremio 协调节点 如果协调节点同时是提供执行,会暴露以下端口 zk (可能) 如果使用了内嵌zk 的2181 client-endpoint 31010,主要是老遗留模式的jdbc 端口 flight 阅读全文

posted @ 2024-02-03 19:40 荣锋亮 阅读(44) 评论(0) 推荐(0) 编辑

dremio LivenessService 服务简单说明
摘要:LivenessService是dremio backend 提供的一个http 服务,提供了live (存活)以及metrics服务 此服务在dremio 集群中的每个节点上都会运行,以下是一些说明 一些特点 服务使用了jetty 与官方dac 的backend 是不太一样,默认使用了jersey 阅读全文

posted @ 2024-02-03 19:39 荣锋亮 阅读(12) 评论(0) 推荐(0) 编辑

dremio cluster docker-compose 运行
摘要:dremio 社区版,集群安装比较简单,核心就是一个配置(zk,分布式存储),为了方便本地环境的测试我 基于docker-compose 提供了一个方便部署的环境,可以使用 环境配置 docker-compose version: "3" services: zk: image: zookeeper 阅读全文

posted @ 2024-02-03 19:39 荣锋亮 阅读(25) 评论(0) 推荐(0) 编辑

dremio vectorized Parquet Reader v2 支持
摘要:dremio 从24.3 开始支持parquet v2 writer 同时性能提升还是很明显的 对于读 官方在TPC-DS测试中,最低有22% 左右的,最高97%,平均77% 左右 写入 同样也是TPC-DS 中,存储降低24%左右,写入提升1.5% 左右,如果开启了c3 读性能提升6.4% 开启 阅读全文

posted @ 2024-02-01 11:56 荣锋亮 阅读(11) 评论(0) 推荐(0) 编辑

dremio 24.3.2发布
摘要:就在最近dremio 提供了24.3.2社区版的下载,同时oss 源码也发布了,核心是一些fix,详细的可以参考官方的release notes 说明 大概看了下git commit 一些变动,此版本开始,一些本来为false 的参数直接设置为了true了比如codedremio.unlimited 阅读全文

posted @ 2024-01-30 12:27 荣锋亮 阅读(40) 评论(0) 推荐(0) 编辑

dremio random 函数造成dremio crash 问题
摘要:以前没注意使用random,在看社区问题的时候测试了下发现的确有类似的问题,官方的解决方法是通过配置 禁用gandiva 优化 参考配置 支持key格式 exec.disabled.gandiva-functions: <function>;<function> 参考配置 参考禁用处理 sabot/ 阅读全文

posted @ 2024-01-25 10:30 荣锋亮 阅读(9) 评论(0) 推荐(0) 编辑

dremio opentelemetry监控试用
摘要:标准的系统监控应该包含metrics,trace,log 这个三大类,metrics 部分,包含了一个promethues 的扩展,当然官方也支持jmx以及slf4j的 opentelemetry 是一个直接内置的trace 功能,很不错,以下是一个简单的测试 环境准备 dremio 默认就支持op 阅读全文

posted @ 2024-01-19 17:15 荣锋亮 阅读(46) 评论(0) 推荐(0) 编辑

dremio ui 数据源插件加载处理简单说明
摘要:dremio 开发数据源扩展,基本包含了数据库,元数据类的,对象存储的,以及catalog 的,实际上开发扩展不算太难 默认开发的扩展直接放jars 文件夹就可以了,但是目前新版本我们会发现隐藏了一个opensearch 的插件,这个插件需 要通过配置开启,plugins.jdbc.opensear 阅读全文

posted @ 2024-01-19 13:57 荣锋亮 阅读(25) 评论(0) 推荐(0) 编辑

dremio 基于Options注解的配置技巧
摘要:以前简单写过一个dremio 配置相关的介绍,以下是一个简单的使用 原理 dremio 自己定义了一个Options 的注解,包含此注解的类会被启动的时候进行类扫描加载,Options 的会存储起来(分为不用类型的) 有session 级别的,系统级别的。。。。 简单使用 pom.xml <?xml 阅读全文

posted @ 2024-01-19 10:24 荣锋亮 阅读(11) 评论(0) 推荐(0) 编辑

dremio nessie 版本持久化配置简单说明
摘要:dremio 对于nessie 的使用就是一个插件配置,默认基于docker运行的nessie 是没有进行版本持久化的,以下是一个简单说明 配置参考 我基于了pg,实际支持的存储引擎还是很多的 docker-compose version: "3" services: mysql2: image: 阅读全文

posted @ 2024-01-17 15:09 荣锋亮 阅读(27) 评论(0) 推荐(0) 编辑

dremio jdbc 访问最好使用链接池工具
摘要:昨天在碰到一个dremio jdbc 比较奇怪的问题,按照了标准的jdbc 操作(建立链接,创建Statement,处理数据,关闭Statement,关闭连接) 当进行多次执行(多次建立连接操作)发现dremio 有一个操作异常,造成数据表创建有问题(事务不完整) 参考代码 private stat 阅读全文

posted @ 2024-01-17 10:43 荣锋亮 阅读(83) 评论(0) 推荐(0) 编辑

dremio dbt + nessie 集成profile 简单说明
摘要:我最近写了一个简单的关于dremio 集成nessie 以及dbt 玩法的说明,以下简单说明下dbt 如何配置 配置说明 对于配置实际上与以前一些介绍类似,集成nessie 的使用与其他是类似的,只是集成nessie 之后我们的数据开发模型上就有了实际的版本了(dbt 集成git 之后也会包含版本, 阅读全文

posted @ 2024-01-13 23:07 荣锋亮 阅读(26) 评论(0) 推荐(0) 编辑

上一页 1 2 3 4 5 6 7 8 9 ··· 22 下一页

导航

< 2025年3月 >
23 24 25 26 27 28 1
2 3 4 5 6 7 8
9 10 11 12 13 14 15
16 17 18 19 20 21 22
23 24 25 26 27 28 29
30 31 1 2 3 4 5
点击右上角即可分享
微信分享提示