02 2024 档案

dremio sample source 简单说明
摘要:dremio 不管是社区版或者企业版默认会包含一个sample的对象存储source,可以让我们直接体验dremio 的能力,以下是关于sample source 的一个简单说明 sample source 说明 是一个s3类型的source 里边的内容是dremio 使用的aws s3 的一个开放 阅读全文

posted @ 2024-02-29 08:00 荣锋亮 阅读(10) 评论(0) 推荐(0) 编辑

dremio 存储插件查找&home space&用户创建space处理简单说明
摘要:dremio中space或者home 中的view 实际后边都会转换到实际存储插件对应的table,只是处理上少有不同 整体简单处理 核心是dremio 通过apache calcite 的sql 校验中的处理,catalogreader 是自己的实现DremioCatalogReader,里边需要 阅读全文

posted @ 2024-02-28 08:00 荣锋亮 阅读(15) 评论(0) 推荐(0) 编辑

dremio 自动提升分片字段处理简单说明
摘要:dremio自动提升支持自动将文件夹转换为一个列,同时可以实现数据的过滤查询,是一个很不错的功能,比如我们在一些数据归档类的应用中可以基于事件进行分区,之后通过自动提升可以方便的进行数据查询 效果 查询效果 debug 效果 内部处理 对于dremio 自动提升的处理我已经介绍过了,实际上核心是分区 阅读全文

posted @ 2024-02-27 08:00 荣锋亮 阅读(24) 评论(0) 推荐(0) 编辑

dremio 元数据自动提升为物理数据集的功能简单说明
摘要:dremio包含了一个元数据自动提升为物理数据集的功能,对于文件系统我们就不用进行格式提升了,dremio 就可以直接查询了,配置如下 当然此功能的前提是数据格式可以被自动发现(dremio 的easy foramt 能力),以下是一个内部处理的简单说明 一个参考调用链 stack com.drem 阅读全文

posted @ 2024-02-26 08:00 荣锋亮 阅读(24) 评论(0) 推荐(0) 编辑

通过ncc 打包unpkg 服务
摘要:默认unpkg 是基于rollup 构建的,构建之后还如果实际运行还是需要安装依赖的,基于ncc 是一个很不错的选择 可以实现all-in-one 这样实际运行以及docker 容器和会小很多,以下是一个简单说明 参考配置 主要是添加package script 以及依赖 package scrip 阅读全文

posted @ 2024-02-25 10:03 荣锋亮 阅读(37) 评论(0) 推荐(0) 编辑

dremio 从S3StoragePlugin看一个存储插件的开发模式
摘要:以前对于S3StoragePlugin 有过简单的说明,以下结合S3StoragePlugin 说明下如何开发一个存储扩展 一些标准模式 选择实现的存储插件的接口 比如s3的因为实际上就是文件系统,所以S3StoragePlugin 实现了FileSystemPlugin 接口的,同时可以复用不少已 阅读全文

posted @ 2024-02-25 08:00 荣锋亮 阅读(15) 评论(0) 推荐(0) 编辑

follow-redirects 可以直接替换node http & https 的npm 模块
摘要:follow-redirects 可以直接替换node http & https 的npm 模块 包含的特性 支持重定向功能 支持重定向参数配置,比如最大重定向,以及最大请求大小,支持beforeredirect 请求处理(比如认证处理) 支持agents 说明 对于业务系统的请求会包含重定向场景的 阅读全文

posted @ 2024-02-24 21:19 荣锋亮 阅读(111) 评论(0) 推荐(0) 编辑

pkl apple 开源的配置即代码语言
摘要:pkl apple 开源的配置即代码语言 应用场景 生成静态配置 可以方便的生成json,yaml,xml 格式配置 应用运行时配置 官方提供了swift,go,java,kotlin 语言的支持,可以方便使用 说明 github 上的start 不少,值得看看,同时也直接可以集成到spring b 阅读全文

posted @ 2024-02-24 08:00 荣锋亮 阅读(30) 评论(0) 推荐(0) 编辑

dremio cloner 简单试用
摘要:以前简单介绍过dremio cloner 工具,以下是一个简单试用 dremio 环境准备 基于docker-compose,具体可以参考https://github.com/rongfengliang/dremio_cluster_docker-compose 完成配置 安装dremio clon 阅读全文

posted @ 2024-02-23 08:01 荣锋亮 阅读(14) 评论(0) 推荐(0) 编辑

unpkg 淘宝registry 不能使用的问题
摘要:以前修改过一个unpkg,可以支持本地私服部署,今天有一位网友在使用淘宝registry 的时候发现有问题,会有重定向的问题 造成不能使用 原因分析 尽管我们配置的是 registry.npmmirror.com 但是对于内容的下载npmmirror 会使用另外一个域名cdn.npmmirror.c 阅读全文

posted @ 2024-02-22 14:51 荣锋亮 阅读(55) 评论(0) 推荐(0) 编辑

dremio SupportsExternalQuery 简单说明
摘要:dremio 的外部查询实际上就是让我们可以通过sql 直接查询source 而不是通过复杂的处理,可以解决一些sql 函数不能使用的问题 对于实现了SupportsExternalQuery 接口的存储扩展就可以实现此功能,比如jdbc 的(属于ce 扩展) 参考语法 SELECT * FROM 阅读全文

posted @ 2024-02-22 08:00 荣锋亮 阅读(11) 评论(0) 推荐(0) 编辑

dremio FileDatasetHandle 简单说明
摘要:FileDatasetHandle 是DatasetHandle的扩展,核心是对于文件系统类的处理(dremio 对于文件系统的支持主要是基于hdfs)同时支持对于不同表格式的处理(delta lake,iceber,parquet),单独说明FileDatasetHandle主要是因为此实现比较重 阅读全文

posted @ 2024-02-21 08:01 荣锋亮 阅读(3) 评论(0) 推荐(0) 编辑

pkl cli 简单试用
摘要:以前简单介绍过apple 开源的pkl 配置即代码工具(当然也提供了语言上的支持),以下是一个简单试用 安装 mac 系统 cli 命令 curl -L -o pkl https://github.com/apple/pkl/releases/download/0.25.2/pkl-macos-am 阅读全文

posted @ 2024-02-21 08:00 荣锋亮 阅读(9) 评论(0) 推荐(0) 编辑

native-lib-loader java native 库的java 包
摘要:native-lib-loader 可以方便native 库的查找,只要我们的c 库符合格式,基于native-lib-loader 就可以方便的进行包的加载 参考c 库 jar 格式 /natives /linux_32 libxxx[-vvv].so /linux_64 libxxx[-vvv] 阅读全文

posted @ 2024-02-20 14:26 荣锋亮 阅读(39) 评论(0) 推荐(0) 编辑

dlt 与dbt的直接集成简单试用
摘要:dlt 直接基于cli包装了dbt 的运行,对于希望通过dlt 进行etl 之后,还想运行dbt 的模型处理的场景就比较方便了,而且dlt 与dbt 的集成也是官方 一个很不错的特性,以下是一个简单试用 环境准备 docker-compose version: "3" services: pg: i 阅读全文

posted @ 2024-02-20 08:00 荣锋亮 阅读(93) 评论(0) 推荐(0) 编辑

dremio node节点统计信息显示问题简单说明
摘要:可能有人注意到dremio 管理界面的统计信息为N/A ,而且因为web 端进行了一些额外显示处理,造成一些疑惑 界面效果 接口返回数据信息 目前从官方代码来说,此显示是正常的,因为计算的是百分比,而且当系统负载比较低的时候,结果基本就为0 web 处理 NodeActivityView.js 参考 阅读全文

posted @ 2024-02-19 18:05 荣锋亮 阅读(19) 评论(0) 推荐(0) 编辑

magika google 开源的基于深度学习的文件类型检测框架
摘要:magika google 开源的基于深度学习的文件类型检测框架,基于了一个keras 模型,包含了1MB的参数,而且需要的资源比较少不以来GPU 包含的特性 支持python cli 以及nodejs 使用(基于tfjs) 训练超过了25M的文件数,超过100中类型 支持递归检测 支持3中类型的预 阅读全文

posted @ 2024-02-19 09:39 荣锋亮 阅读(43) 评论(0) 推荐(0) 编辑

dremio DatasetHandle 简单说明
摘要:DatasetHandle 主要是关于dataset handle 处理的,不同存储插件会有不同的具体实现,同时不同的表格式也会有不同的实现(iceberg,parquet) 功能简单介绍 主要是关于dataset如何处理的handle,实际的实现会包含一些上下文信息,当进行其他api 调用的时候 阅读全文

posted @ 2024-02-19 08:01 荣锋亮 阅读(10) 评论(0) 推荐(0) 编辑

dremio source 禁用source 不可用禁止移除与反射的一些问题
摘要:实际上dremio 的反射比较有意思,而且也比较强大,比如我们可以会想通过反射,当上游系统不可用的时候依然可以查询 但是实际效果并不是这样的 参考配置 如下 问题 The source [s3] is currently unavailable. Metadata is not accessible 阅读全文

posted @ 2024-02-18 08:00 荣锋亮 阅读(22) 评论(0) 推荐(0) 编辑

dlt s3 集成试用
摘要:属于一个简单试用,dlt 支持destinations 为filesystem,当然也支持source 为filesystem,内部处理是使用了s3fs 环境准备 这个比较简单,推荐基于venv dlt pip install dlt[filesystem] s3 通过docker 部署,同时可以需 阅读全文

posted @ 2024-02-17 08:00 荣锋亮 阅读(18) 评论(0) 推荐(0) 编辑

dlt 简单试用
摘要:以下主要是一个简单的体验 环境初始化 以前也简单说明dlt实际上就是一个python包,实际使用推荐结合python 的venv 安装 安装 python -m venv venv pip install -r requirements.txt requirements.txt 文件( 主要是一些依 阅读全文

posted @ 2024-02-17 08:00 荣锋亮 阅读(36) 评论(0) 推荐(0) 编辑

dremio SystemStoragePluginInitializer 简单说明
摘要:以前在关于ManagedStoragePlugin部分,简单说明了下SystemStoragePluginInitializer,今天再明确说明下 SystemStoragePluginInitializer 的特点 继承自Initializer接口,可以实现一些轻量级服务的启动 SystemSto 阅读全文

posted @ 2024-02-16 08:01 荣锋亮 阅读(1) 评论(0) 推荐(0) 编辑

dlt开源数据加载工具
摘要:dlt是一个开源数据加载工具,基于python 开发 特点 一个库 dlt 就是一个python包,其他地方需要我们自己开发 非黑盒系统 我们可以基于代码灵活的进行自定义开发 基于乘法的玩法,而不是加法 自动代码生成 包含了类似dbt 的一些处理cli 基于python 的玩法 dlt 对于数据的处 阅读全文

posted @ 2024-02-16 08:00 荣锋亮 阅读(133) 评论(0) 推荐(0) 编辑

nginx 1.25.4 发布
摘要:就在昨天nginx 发布了1.25.4,主要修改是关于http 3的安全问题,当然还有一些其他bug 修改 说明 目前看越新的技术,出现安全问题的风险越大(主要是当前新的http协议实现越来越复杂了) 参考资料 https://nginx.org/https://nginx.org/en/secur 阅读全文

posted @ 2024-02-15 09:53 荣锋亮 阅读(178) 评论(0) 推荐(0) 编辑

git RPC failed; curl 92 HTTP/2 stream 5 was not closed cleanly 类似问题解决
摘要:今天在使用git 通过http 协议进行git repo clone 的时候发现的问题,记录下 参考解决方法 使用http1.1 协议 git config --global http.version HTTP/1.1 增加buffer git config --global http.postBu 阅读全文

posted @ 2024-02-15 08:00 荣锋亮 阅读(2080) 评论(0) 推荐(0) 编辑

jvm shutdownHook + spring 自定义事件实现业务处理
摘要:jvm 的shutdownHook 可以实现对于jvm 退出的一些处理,比如资源清理,异常事件通知,spring 自定义事件(或者使用内部的)可以实现 bean 的一些事件驱动处理,两个结合起来可以方便我们进行一些业务处理 一些业务场景 资源清理 服务停止业务状态一致性补偿 服务注册场景中的取消注册 阅读全文

posted @ 2024-02-14 08:00 荣锋亮 阅读(26) 评论(0) 推荐(0) 编辑

dremio cloner 基于python 的dremio ci/cd 工具
摘要:dremio cloner 是dremio 官方团队开发的一个python cli 工具 主要应用场景 dremio 环境迁移 比如社区版到企业版 ci/cd 集成 部分备份恢复 安全审计报告 反射报告 参考资料 https://github.com/deane-dremio/dremio-clon 阅读全文

posted @ 2024-02-13 10:33 荣锋亮 阅读(22) 评论(0) 推荐(0) 编辑

extism cli 模式简单试用
摘要:安装cli curl https://get.extism.org/cli | sh cli 模式运行 官方提供了一个示例项目,可以快速体验 命令 PLUGIN_URL="https://github.com/extism/plugins/releases/latest/download/count 阅读全文

posted @ 2024-02-13 08:04 荣锋亮 阅读(23) 评论(0) 推荐(0) 编辑

ruffle 基于webassembly 的flash player 模拟器
摘要:ruffle 基于webassembly 的flash player 模拟器 包含的特性 安全 基于rust 以及wasm 避免一些安全问题 安装简单 免费开源 说明 官方还提供了一个demo 站点可以快速体验功能 参考资料 https://github.com/ruffle-rs/ruffleht 阅读全文

posted @ 2024-02-12 08:00 荣锋亮 阅读(66) 评论(0) 推荐(0) 编辑

netflix conductor 停止维护
摘要:就在23年的12月底,netflix conductor 团队停止了对于conductor 社区版的维护,同时github 项目只读了目前社区有一个fork 的conductor-oss ( orkes 团队维护,团队成员来自netflix),orkes 属于一个企业级的conductor平台 参考 阅读全文

posted @ 2024-02-11 21:21 荣锋亮 阅读(162) 评论(0) 推荐(0) 编辑

extism 基于rust 开发的强大webassembly 框架
摘要:extism 基于rust 开发的强大webassembly 框架 包含的特性 使用简单 可以方便的开发基于webassembly 的插件系统 安全 方便运行 包含了灵活的架构可以可以方便与多种语言进行通信(基本覆盖了主流的编程语言) 说明 目前基于webassembly的语言集成热度是越来越高了, 阅读全文

posted @ 2024-02-11 08:00 荣锋亮 阅读(44) 评论(0) 推荐(0) 编辑

dbt-jsonschema 来自dbt 官方的schema check 工具
摘要:dbt-jsonschema是dbt 官方开发的一个方便schema check 的工具,目前主要支持json 以及yaml 格式的check 同时官方也有一个60s 的介绍 说明 目前来说开发dbt 的ide dataspell 是一个不错的工具,dbt-language-server 也可以作为 阅读全文

posted @ 2024-02-10 22:39 荣锋亮 阅读(20) 评论(0) 推荐(0) 编辑

dremio 的InformationSchemaCatalog 服务三
摘要:以前简单写过一些关于dremio 的InformationSchemaCatalog ,也说过dremio 为了方便提供标准的INFORMATION_SCHEMA 自己开发了存储扩展,以下是关于存储扩展的创建以及刷新说明 创建 创建是在CatalogService 中处理的,具体的实现是Catalo 阅读全文

posted @ 2024-02-10 08:00 荣锋亮 阅读(20) 评论(0) 推荐(0) 编辑

dremio CTAS STORE AS && WITH SINGLE WRITER 简单说明
摘要:dremio CTAS 支持存储格式以及写入的文件数量(相对分区还说) 参考CTAS格式 CREATE TABLE "s3"."91733d30-d1d2-46bf-8f2b-3c34d587a96c" STORE AS (type => 'text', fieldDelimiter => ',', 阅读全文

posted @ 2024-02-09 08:01 荣锋亮 阅读(22) 评论(0) 推荐(0) 编辑

dremio SchedulerService 服务简单说明
摘要:SchedulerService内部调度服务算是一个比较重要的模块,比如dremio的功能都依赖此模块(元数据获取,一些数据清理任务,反射加速) 参考实现子类 SchedulerService 实现也比较多,因为dremio 集群中的节点有多种角色,为了保证数据的一致性会对于不同集群角色的节点进行不 阅读全文

posted @ 2024-02-08 08:00 荣锋亮 阅读(17) 评论(0) 推荐(0) 编辑

dremio FileSystem 简单说明
摘要:dremio 尽管对于文件系统的使用很多底层都是hdfs 的(s3,发射加速),dremio 为了减少直接依赖hdfs,自己抽象了一个FileSystem 接口 对于不同的实现可以方便进行扩展,当然和刚才说的一样,不少底层依赖的是hdfs 的FileSystem 参考子类 如下图 简单说明: Fil 阅读全文

posted @ 2024-02-07 08:00 荣锋亮 阅读(27) 评论(0) 推荐(0) 编辑

dremio cloud cache 简单说明
摘要:dremio cloud cache 实际上就是对于云文件系统的cache加速(比如hdfs,s3。。。),在处理的时候使用了ce 包装的包,详细源码并没有开源 我们可以通过一些代码整体看下实现 参考处理 dremio-ce-services-cachemanager 中的处理 ce caache 阅读全文

posted @ 2024-02-06 08:00 荣锋亮 阅读(9) 评论(0) 推荐(0) 编辑

dremio 下载大量查询结果数据的一个技巧
摘要:dremio 可以对查询结果进行下载(csv,json,parquet格式的),但是目前有一个100万的限制,实际上一般是够用了,但是很多时候大家可能 希望对于查询的结果进行存储(比如进行进一步的分发),以下是一个技巧 默认下载的处理 从处理上就是dremio 的查询job,将查询结果存储到一个__ 阅读全文

posted @ 2024-02-05 15:10 荣锋亮 阅读(24) 评论(0) 推荐(0) 编辑

spring-plugin简单使用
摘要:spring-plugin 是spring 官方提供的一个插件化设计方案,比如使用支持基于spring 的项目 项目结构 此简单测试项目是一个maven 多模块的,包含了一个plugin 契约模块,连个插件实现,以及一个bootstrap 启动入口 代码结构 ├── README.md ├── bo 阅读全文

posted @ 2024-02-05 09:31 荣锋亮 阅读(289) 评论(0) 推荐(0) 编辑

spring-plugin 来自spring 官方的plugin 解决方案
摘要:spring-plugin属于spring 官方的plugin 解决方案 使用的上下文 以下是官方的一些使用场景 希望构建一个插件化架构 不能使用osgi的(实际上还是osgi 太复杂) 系统通过一些接口进行系统扩展 希望通过jar 包的模式进行系统的灵活扩展 项目使用spring 说明 目前不太好 阅读全文

posted @ 2024-02-04 09:59 荣锋亮 阅读(282) 评论(0) 推荐(0) 编辑

vscode Data Wrangler 一个强大的处理vscode 数据处理工具
摘要:vscode Data Wrangler 一个强大的处理vscode 数据处理工具,代码没有开源,但是可以进行不少数据的可视化处理 安装 使用效果 比如我一个parquet 数据文件的显示处理 说明 vscode-data-wrangler 并没有开源,技术实现上有python,同时还有dotnet 阅读全文

posted @ 2024-02-04 09:37 荣锋亮 阅读(357) 评论(0) 推荐(0) 编辑

entity-resolution 学习参考资料
摘要:实体解析在实际业务数据分析场景还是很重要的,以下是一个不错的实体解析工具以及资料的github 地址其中提供了包含开源&商业解决方案,同时还有一些不错的书籍,hands-on-entity-resolution 这本书是24年新出的,核心使用到的工具是splink,很不错的python包 参考资料 阅读全文

posted @ 2024-02-04 09:26 荣锋亮 阅读(9) 评论(0) 推荐(0) 编辑

dremio 官方一篇关于使用了到的技术进行对象存储查询加速的博客
摘要:dremio 官方发布了一篇新博客是关于如何实现对象存储的快速查询的 使用的技术 主要是apche arrow,reflections, columnar cloud cache (c3) 说明 博客内容很简单,主要是进行了一个介绍,详细的可以看看里边的内容,同时里边包含了不少链接值得学习下 参考资 阅读全文

posted @ 2024-02-03 19:40 荣锋亮 阅读(22) 评论(0) 推荐(0) 编辑

dremio 服务暴露的一些端口
摘要:对于运行态的dremio 我们可以看到服务开启的监听,同时也可以通过官方提供的配置文件看到 dremio 协调节点 如果协调节点同时是提供执行,会暴露以下端口 zk (可能) 如果使用了内嵌zk 的2181 client-endpoint 31010,主要是老遗留模式的jdbc 端口 flight 阅读全文

posted @ 2024-02-03 19:40 荣锋亮 阅读(32) 评论(0) 推荐(0) 编辑

dremio LivenessService 服务简单说明
摘要:LivenessService是dremio backend 提供的一个http 服务,提供了live (存活)以及metrics服务 此服务在dremio 集群中的每个节点上都会运行,以下是一些说明 一些特点 服务使用了jetty 与官方dac 的backend 是不太一样,默认使用了jersey 阅读全文

posted @ 2024-02-03 19:39 荣锋亮 阅读(9) 评论(0) 推荐(0) 编辑

dbt_artifacts 一个很不错的dbt模型元数据扩展
摘要:dbt_artifacts 实际上属于基于基于macro 以及自定义模型开发的一个dbt 包,实现了模型的元数据能力,同时也可以作为一个dbt 模型测试的工具 支持的数据库 Databricks Spark Snowflake Google BigQuery Postgres 参考资料 https: 阅读全文

posted @ 2024-02-03 19:39 荣锋亮 阅读(25) 评论(0) 推荐(0) 编辑

dremio cluster docker-compose 运行
摘要:dremio 社区版,集群安装比较简单,核心就是一个配置(zk,分布式存储),为了方便本地环境的测试我 基于docker-compose 提供了一个方便部署的环境,可以使用 环境配置 docker-compose version: "3" services: zk: image: zookeeper 阅读全文

posted @ 2024-02-03 19:39 荣锋亮 阅读(20) 评论(0) 推荐(0) 编辑

elementary 面向对象分析师的开源数据可观测工具
摘要:elementary 面向对象分析师的开源数据可观测工具,基于了dbt 包含的特性 数据可观测性报告 通过dbt tests 可以发现异常数据 测试结果 模型性能报告 数据血缘 dbt 制品上传 slack 同志 说明 elementary 实际上就是一个dbt 的扩展,实现了不少强大的功能,值得试 阅读全文

posted @ 2024-02-03 08:01 荣锋亮 阅读(22) 评论(0) 推荐(0) 编辑

quickjs-emscripten webassembly 包
摘要:quickjs-emscripten是基于emscripten将quickjs c 版本,编译为了webassembly 方便通过npm 使用 包含的特性 支持node以及web 使用 安全的执行js (支持到es2020) quickjs runtime 进行创建以及维护值 暴露主机函数到quic 阅读全文

posted @ 2024-02-02 09:28 荣锋亮 阅读(118) 评论(0) 推荐(0) 编辑

docker init 简单使用
摘要:这次说的docker init 并不是init 进程,而是docker 提供了cli init 命令,与npm init 等类似的方便创建docker 项目的命令 参考使用 提供的能力 docker help init Usage: docker init [OPTIONS] Creates Doc 阅读全文

posted @ 2024-02-02 08:00 荣锋亮 阅读(555) 评论(0) 推荐(0) 编辑

dremio vectorized Parquet Reader v2 支持
摘要:dremio 从24.3 开始支持parquet v2 writer 同时性能提升还是很明显的 对于读 官方在TPC-DS测试中,最低有22% 左右的,最高97%,平均77% 左右 写入 同样也是TPC-DS 中,存储降低24%左右,写入提升1.5% 左右,如果开启了c3 读性能提升6.4% 开启 阅读全文

posted @ 2024-02-01 11:56 荣锋亮 阅读(8) 评论(0) 推荐(0) 编辑

nginx-go-crossplane nginx 配置解析包试用
摘要:以下是一个简单试用,学习下nginx-go-crossplane 的使用 参考代码 nginx.conf worker_processes 1; events { worker_connections 1024; } http { default_type application/octet-str 阅读全文

posted @ 2024-02-01 08:05 荣锋亮 阅读(52) 评论(0) 推荐(0) 编辑

导航