随笔分类 -  dremio

上一页 1 2 3 4 5 6 7 8 9 ··· 22 下一页

dremio
dremio 元数据自动提升为物理数据集的功能简单说明
摘要:dremio包含了一个元数据自动提升为物理数据集的功能,对于文件系统我们就不用进行格式提升了,dremio 就可以直接查询了,配置如下 当然此功能的前提是数据格式可以被自动发现(dremio 的easy foramt 能力),以下是一个内部处理的简单说明 一个参考调用链 stack com.drem 阅读全文

posted @ 2024-02-26 08:00 荣锋亮 阅读(24) 评论(0) 推荐(0) 编辑

dremio 从S3StoragePlugin看一个存储插件的开发模式
摘要:以前对于S3StoragePlugin 有过简单的说明,以下结合S3StoragePlugin 说明下如何开发一个存储扩展 一些标准模式 选择实现的存储插件的接口 比如s3的因为实际上就是文件系统,所以S3StoragePlugin 实现了FileSystemPlugin 接口的,同时可以复用不少已 阅读全文

posted @ 2024-02-25 08:00 荣锋亮 阅读(15) 评论(0) 推荐(0) 编辑

dremio cloner 简单试用
摘要:以前简单介绍过dremio cloner 工具,以下是一个简单试用 dremio 环境准备 基于docker-compose,具体可以参考https://github.com/rongfengliang/dremio_cluster_docker-compose 完成配置 安装dremio clon 阅读全文

posted @ 2024-02-23 08:01 荣锋亮 阅读(14) 评论(0) 推荐(0) 编辑

dremio SupportsExternalQuery 简单说明
摘要:dremio 的外部查询实际上就是让我们可以通过sql 直接查询source 而不是通过复杂的处理,可以解决一些sql 函数不能使用的问题 对于实现了SupportsExternalQuery 接口的存储扩展就可以实现此功能,比如jdbc 的(属于ce 扩展) 参考语法 SELECT * FROM 阅读全文

posted @ 2024-02-22 08:00 荣锋亮 阅读(11) 评论(0) 推荐(0) 编辑

dremio FileDatasetHandle 简单说明
摘要:FileDatasetHandle 是DatasetHandle的扩展,核心是对于文件系统类的处理(dremio 对于文件系统的支持主要是基于hdfs)同时支持对于不同表格式的处理(delta lake,iceber,parquet),单独说明FileDatasetHandle主要是因为此实现比较重 阅读全文

posted @ 2024-02-21 08:01 荣锋亮 阅读(3) 评论(0) 推荐(0) 编辑

native-lib-loader java native 库的java 包
摘要:native-lib-loader 可以方便native 库的查找,只要我们的c 库符合格式,基于native-lib-loader 就可以方便的进行包的加载 参考c 库 jar 格式 /natives /linux_32 libxxx[-vvv].so /linux_64 libxxx[-vvv] 阅读全文

posted @ 2024-02-20 14:26 荣锋亮 阅读(39) 评论(0) 推荐(0) 编辑

dremio node节点统计信息显示问题简单说明
摘要:可能有人注意到dremio 管理界面的统计信息为N/A ,而且因为web 端进行了一些额外显示处理,造成一些疑惑 界面效果 接口返回数据信息 目前从官方代码来说,此显示是正常的,因为计算的是百分比,而且当系统负载比较低的时候,结果基本就为0 web 处理 NodeActivityView.js 参考 阅读全文

posted @ 2024-02-19 18:05 荣锋亮 阅读(19) 评论(0) 推荐(0) 编辑

dremio DatasetHandle 简单说明
摘要:DatasetHandle 主要是关于dataset handle 处理的,不同存储插件会有不同的具体实现,同时不同的表格式也会有不同的实现(iceberg,parquet) 功能简单介绍 主要是关于dataset如何处理的handle,实际的实现会包含一些上下文信息,当进行其他api 调用的时候 阅读全文

posted @ 2024-02-19 08:01 荣锋亮 阅读(10) 评论(0) 推荐(0) 编辑

dremio source 禁用source 不可用禁止移除与反射的一些问题
摘要:实际上dremio 的反射比较有意思,而且也比较强大,比如我们可以会想通过反射,当上游系统不可用的时候依然可以查询 但是实际效果并不是这样的 参考配置 如下 问题 The source [s3] is currently unavailable. Metadata is not accessible 阅读全文

posted @ 2024-02-18 08:00 荣锋亮 阅读(22) 评论(0) 推荐(0) 编辑

dremio SystemStoragePluginInitializer 简单说明
摘要:以前在关于ManagedStoragePlugin部分,简单说明了下SystemStoragePluginInitializer,今天再明确说明下 SystemStoragePluginInitializer 的特点 继承自Initializer接口,可以实现一些轻量级服务的启动 SystemSto 阅读全文

posted @ 2024-02-16 08:01 荣锋亮 阅读(1) 评论(0) 推荐(0) 编辑

dremio cloner 基于python 的dremio ci/cd 工具
摘要:dremio cloner 是dremio 官方团队开发的一个python cli 工具 主要应用场景 dremio 环境迁移 比如社区版到企业版 ci/cd 集成 部分备份恢复 安全审计报告 反射报告 参考资料 https://github.com/deane-dremio/dremio-clon 阅读全文

posted @ 2024-02-13 10:33 荣锋亮 阅读(22) 评论(0) 推荐(0) 编辑

dremio 的InformationSchemaCatalog 服务三
摘要:以前简单写过一些关于dremio 的InformationSchemaCatalog ,也说过dremio 为了方便提供标准的INFORMATION_SCHEMA 自己开发了存储扩展,以下是关于存储扩展的创建以及刷新说明 创建 创建是在CatalogService 中处理的,具体的实现是Catalo 阅读全文

posted @ 2024-02-10 08:00 荣锋亮 阅读(20) 评论(0) 推荐(0) 编辑

dremio FileSystem 简单说明
摘要:dremio 尽管对于文件系统的使用很多底层都是hdfs 的(s3,发射加速),dremio 为了减少直接依赖hdfs,自己抽象了一个FileSystem 接口 对于不同的实现可以方便进行扩展,当然和刚才说的一样,不少底层依赖的是hdfs 的FileSystem 参考子类 如下图 简单说明: Fil 阅读全文

posted @ 2024-02-07 08:00 荣锋亮 阅读(27) 评论(0) 推荐(0) 编辑

dremio cloud cache 简单说明
摘要:dremio cloud cache 实际上就是对于云文件系统的cache加速(比如hdfs,s3。。。),在处理的时候使用了ce 包装的包,详细源码并没有开源 我们可以通过一些代码整体看下实现 参考处理 dremio-ce-services-cachemanager 中的处理 ce caache 阅读全文

posted @ 2024-02-06 08:00 荣锋亮 阅读(9) 评论(0) 推荐(0) 编辑

dremio 下载大量查询结果数据的一个技巧
摘要:dremio 可以对查询结果进行下载(csv,json,parquet格式的),但是目前有一个100万的限制,实际上一般是够用了,但是很多时候大家可能 希望对于查询的结果进行存储(比如进行进一步的分发),以下是一个技巧 默认下载的处理 从处理上就是dremio 的查询job,将查询结果存储到一个__ 阅读全文

posted @ 2024-02-05 15:10 荣锋亮 阅读(24) 评论(0) 推荐(0) 编辑

dremio 官方一篇关于使用了到的技术进行对象存储查询加速的博客
摘要:dremio 官方发布了一篇新博客是关于如何实现对象存储的快速查询的 使用的技术 主要是apche arrow,reflections, columnar cloud cache (c3) 说明 博客内容很简单,主要是进行了一个介绍,详细的可以看看里边的内容,同时里边包含了不少链接值得学习下 参考资 阅读全文

posted @ 2024-02-03 19:40 荣锋亮 阅读(22) 评论(0) 推荐(0) 编辑

dremio 服务暴露的一些端口
摘要:对于运行态的dremio 我们可以看到服务开启的监听,同时也可以通过官方提供的配置文件看到 dremio 协调节点 如果协调节点同时是提供执行,会暴露以下端口 zk (可能) 如果使用了内嵌zk 的2181 client-endpoint 31010,主要是老遗留模式的jdbc 端口 flight 阅读全文

posted @ 2024-02-03 19:40 荣锋亮 阅读(32) 评论(0) 推荐(0) 编辑

dremio LivenessService 服务简单说明
摘要:LivenessService是dremio backend 提供的一个http 服务,提供了live (存活)以及metrics服务 此服务在dremio 集群中的每个节点上都会运行,以下是一些说明 一些特点 服务使用了jetty 与官方dac 的backend 是不太一样,默认使用了jersey 阅读全文

posted @ 2024-02-03 19:39 荣锋亮 阅读(9) 评论(0) 推荐(0) 编辑

dremio cluster docker-compose 运行
摘要:dremio 社区版,集群安装比较简单,核心就是一个配置(zk,分布式存储),为了方便本地环境的测试我 基于docker-compose 提供了一个方便部署的环境,可以使用 环境配置 docker-compose version: "3" services: zk: image: zookeeper 阅读全文

posted @ 2024-02-03 19:39 荣锋亮 阅读(20) 评论(0) 推荐(0) 编辑

dremio vectorized Parquet Reader v2 支持
摘要:dremio 从24.3 开始支持parquet v2 writer 同时性能提升还是很明显的 对于读 官方在TPC-DS测试中,最低有22% 左右的,最高97%,平均77% 左右 写入 同样也是TPC-DS 中,存储降低24%左右,写入提升1.5% 左右,如果开启了c3 读性能提升6.4% 开启 阅读全文

posted @ 2024-02-01 11:56 荣锋亮 阅读(8) 评论(0) 推荐(0) 编辑

上一页 1 2 3 4 5 6 7 8 9 ··· 22 下一页

导航