随笔分类 -  dremio

上一页 1 2 3 4 5 6 7 ··· 22 下一页

dremio
dremio FormatCreator 简单说明
摘要:FormatCreator 的核心职责就是进行Format plugin 的创建 核心提供的能力 如下图,目前核心是为FileSystemPlugin 提供格式化处理的能了(包含了格式识别,数据预览,格式插件查找,创建格式插件) 构造函数初始化 默认是基于了动态类发现以及加载进行系统FormatPl 阅读全文

posted @ 2024-04-17 19:49 荣锋亮 阅读(15) 评论(0) 推荐(0) 编辑

dremio No enum constant com.dremio.common.types.TypeProtos.MinorType.TIMESTAMPMICRO 问题简单说明
摘要:现象 此问题一般出现了我们对于数据源的物理表进行了反射(源表包含时间戳类型的数据),但是我们希望直接使用反射里边的parquet 文件格式数据,此时使用预览默认是可以读取parquet 数据的,但是当我们实际查询的时候发现可能提示此问题 参考异常调用链 VALIDATION ERROR: No en 阅读全文

posted @ 2024-04-17 19:48 荣锋亮 阅读(12) 评论(0) 推荐(0) 编辑

dremio 一个元数据刷新问题
摘要:以前关于dremio 元数据刷新的也简单介绍过,最近发现dremio 新版本(从24.1 版本开始)有一些调整,废弃了,所有数据集的刷新配置 只支持基于查询的元数据刷新,一些关于此调整一些说明 好处 减少了元数据刷新的时间以及对于查询的影响,可以让查询阶段的元数据处理更快了(核心是减少查询处理) 减 阅读全文

posted @ 2024-04-17 00:15 荣锋亮 阅读(28) 评论(0) 推荐(0) 编辑

基于dremio 安装包进行源码依赖包maven 私服重建的一个思路
摘要:dremio 25.0 版本已经发布了,但是如果希望自己源码构建,但是缺少一些依赖造成编译会有问题,但是我们可以直接基于官方提供的 下载包的文件进行maven 私服的重建,以下说明下简单流程 参考流程 下载软件包 这个可以从dremio 官网下载到 最好选择一个可以构建的分支本地构建下 此步骤的目的 阅读全文

posted @ 2024-04-11 18:29 荣锋亮 阅读(48) 评论(7) 推荐(0) 编辑

dremio 25.0 版本的一些问题
摘要:就是最近dremio 25.0 发布了,昨天在体验了之后似乎一些功能与实际的说明是不太一样的(也可能是社区版的问题) 一些问题 注意jdk8 不支持了,最低是jdk 11 了 nessie catalog ga 了(生产可用) 官方的说法是支持基于api 以及ALTER TABLE , ALTER 阅读全文

posted @ 2024-04-11 11:30 荣锋亮 阅读(34) 评论(0) 推荐(0) 编辑

dremio 25.0 发布
摘要:就在最近dremio 发布了25.0 版本,新的特性很多,同时也有不少历史问题的fix,完整信息可以参考官方文档 说明 等后边体验之后说明下新特性的功能 参考资料 https://docs.dremio.com/current/release-notes/version-250-releasehtt 阅读全文

posted @ 2024-04-10 10:28 荣锋亮 阅读(17) 评论(0) 推荐(0) 编辑

dbt dremio 项目代码结构简单说明
摘要:以前简单介绍过dremio dbt 扩展的特点,以下说明下代码结构 参考代码结构 dbt ├── adapters │ └── dremio │ ├── __init__.py │ ├── __version__.py │ ├── api │ │ ├── __init__.py │ │ ├── au 阅读全文

posted @ 2024-04-03 00:49 荣锋亮 阅读(14) 评论(0) 推荐(0) 编辑

dremio dbt 实现简单说明
摘要:dremio dbt adapter 是一个方便的可以通过dbt 进行dremio 模型的工程化建模工具,adapter 实现上也是按照标准的套路以下是一个关于实现的简单说明 内部实现特点 dremio 的操作基于了http 的rest api,没有使用odbc 或者flight sql 处理,这样 阅读全文

posted @ 2024-04-03 00:46 荣锋亮 阅读(15) 评论(0) 推荐(0) 编辑

dremio sqlalchemy poetry 模式包管理
摘要:比较有意思的是关于poetry setuptools entry_points 配置的,目前基于script 模式是有问题的,结果通过尝试 使用plugin 模式是可以的 参考配置 [tool.poetry.plugins."sqlalchemy.dialects"] "dremio.flight" 阅读全文

posted @ 2024-03-30 08:00 荣锋亮 阅读(5) 评论(0) 推荐(0) 编辑

dremio sqlalchemy 连接说明
摘要:实际上有社区已经有一个python包了,但是里边一些实现目前有一些问题(pip 包的,当然还有一些数据类型支持的问题) 我fork 进行了一些调整 一些问题 pandas 依赖 应该是pyarrow的调整,我在代码setup.py 添加了 supports_statement_cache 问题 我按 阅读全文

posted @ 2024-03-29 08:00 荣锋亮 阅读(26) 评论(0) 推荐(0) 编辑

dremio 异步读取但是没开启cache 的处理
摘要:dremio 对于文件系统支持异步读以及cache 处理,对于cache 的处理只有在开启异步读的时候 参考配置 开启异步数据访问 cache 配置 内部处理 实际上都使用的是ce cache 包中的,getAsyncByteReader 的调用,此方法是标准FileSystem的一个方法 File 阅读全文

posted @ 2024-03-28 08:00 荣锋亮 阅读(12) 评论(0) 推荐(0) 编辑

dremio QueryContext 简单说明
摘要:QueryContext 包含了查询相关的一些信息,官方代码注释说应该重名为PlanningContext,主要是在fragment contexts 中使用 接口扩展 如下图,实现了ResourceSchedulingContext以及OptimizerRulesContext 主要实例化的地方 阅读全文

posted @ 2024-03-27 08:00 荣锋亮 阅读(10) 评论(0) 推荐(0) 编辑

dremio ce kernel 提供的一些配置类
摘要:dremio ce kernel 包提供了不少对于dremio的扩展类,比如规则,parquet 读取,以及反射处理的,以下是一个简单说明 参考配置 标准的sabot-module.conf 文件 dremio: { classpath.scanning { packages += "com.dre 阅读全文

posted @ 2024-03-25 08:00 荣锋亮 阅读(5) 评论(0) 推荐(0) 编辑

dremio cloud cache 简单说明(二)
摘要:以前我介绍过关于cache 的CacheFileSystemWrapper,以下说明下关于cache 缓存以及加载的处理 参考配置 主要是在executor 节点的 services: { coordinator.enabled: false, coordinator.master.enabled: 阅读全文

posted @ 2024-03-24 08:00 荣锋亮 阅读(21) 评论(0) 推荐(0) 编辑

dremio AsyncStreamConf 简单说明
摘要:AsyncStreamConf 主要是关于异步以及cache 配置属性的参数配置,dremio 存储扩展不少都实现了此接口 参考实现 使用的地方 整体使用 存储插件基本都会使用到,包含了一些reader,同时还有文件系统的包装处理 ce CacheFileSystemWrapper 的使用 这个是d 阅读全文

posted @ 2024-03-23 08:39 荣锋亮 阅读(8) 评论(0) 推荐(0) 编辑

dremio 官方对于软件版ha 以及扩展部署的参考方案
摘要:关于dremio 实际大规模部署的记录,内容来自官方文档 dremio 组件架构参考图 此图包含了dremio 的ha 以及扩展,包含了主备Coordinator(故障转移的) 提高查询性能的Coordinator,以及进行实际查询的执行器此部署中依赖lb,共享存储(nfs 类的),zk (协调选举 阅读全文

posted @ 2024-03-22 09:28 荣锋亮 阅读(28) 评论(0) 推荐(0) 编辑

soda-data dremio 集成使用
摘要:以前简单介绍过soda 数据质量工具,以下是关于dremio 集成的一个说明 环境准备 dremio dremio 基于docker 部署,具体可以参考https://github.com/rongfengliang/dremio_cluster_docker-compose soda soda 包 阅读全文

posted @ 2024-03-22 08:00 荣锋亮 阅读(44) 评论(0) 推荐(0) 编辑

dremio 自定义登陆以及简单sso
摘要:一个简单的dremio 集成自己外部登陆的,处理方法是通过nginx 进行proxy 同时开发自己的login 服务,此服务调用的dremio login api 对于自己的登陆页面调用自己开发的login api,然后将登陆信息写入到localstorage 中,之后进行一个dremio ngin 阅读全文

posted @ 2024-03-20 12:26 荣锋亮 阅读(50) 评论(0) 推荐(0) 编辑

dremio python odbc & pandas 集成示例代码
摘要:主要是一个记录,方便后续使用 参考代码 代码 import pyodbc import pandas host = "localhost" port = "32010" user = "admin" password = "admin123" ssl = "false" schema = "s3v2 阅读全文

posted @ 2024-03-20 08:00 荣锋亮 阅读(27) 评论(0) 推荐(0) 编辑

dremio SplitOrphansCleanerService 简单说明
摘要:SplitOrphansCleanerService 目前主要是清理一些孤立的split 服务(主要是对于namespaceservice) SplitOrphansCleanerService创建 DACDaemonModule 中,可以看出是分布式master 角色启动的(实际就是master 阅读全文

posted @ 2024-03-18 08:00 荣锋亮 阅读(8) 评论(0) 推荐(0) 编辑

上一页 1 2 3 4 5 6 7 ··· 22 下一页

导航