随笔分类 -  大数据

snowflake polaris iceberg rest catalog 代码发布到github 了
摘要:就在7月低snowflake 的 polaris 代码以及发布到github 了,以下是一些资料可以参考 说明 从介绍上polaris 实际上包含了不少nessie 的能力,后续如果与dremio 的集成,还是值得期待的,在今年dremio 的发布会上,说是会包含一个基于rest catalog 的 阅读全文

posted @ 2024-08-13 00:32 荣锋亮 阅读(36) 评论(0) 推荐(0) 编辑

deequ aws 开源的数据质量框架
摘要:deequ 是aws 开源的基于spark 的数据质量框架(数据单元测试),同时也提供了python 包 deequ 提供的能力 metrics 计算 约束建议 约束校验 metrics repo 参考架构图 说明 对于希望实现数据质量的团队deequ的设计还是很值得学习参考的,只是目前是基于spa 阅读全文

posted @ 2024-06-20 07:16 荣锋亮 阅读(184) 评论(0) 推荐(0) 编辑

fugue 分布式计算通用接口
摘要:fugue提供了通用方便分布式计算的接口,可以高效的访问大数据项目,提供了python,pandas,sql 等模式如下图 从上图可以看出fugue 提供了一个语义层,我们的计算任务可以运行在ray,dask,spark,以及duckdb 中 参考架构 可以看出fugue 提供了不少方便的能力,比如 阅读全文

posted @ 2023-12-23 10:16 荣锋亮 阅读(38) 评论(0) 推荐(0) 编辑

ytsaurus yandex 开源的大数据平台
摘要:ytsaurus yandex 开源的 大数据平台 支持的特性 对租户,包含看了mapreduce,sql 查询引擎,job 调度,面向oltp 的key value 存储 可靠以及稳定,无单点故障,自动复制,更新不丢失数据 可扩展,支持百万级别的cpu 以及千级别的GPU,支持EB 级别的HDD, 阅读全文

posted @ 2023-03-21 20:01 荣锋亮 阅读(293) 评论(0) 推荐(0) 编辑

dremio DacDaemonYarnApplication 简单说明
摘要:DacDaemonYarnApplication 属于dremio 通过twill 集成yarn 的应用指南定义,核心是实现了标准的TwillApplication接口 前边有简单说过twill 的运行,一个是通过实现TwillRunnable 接口的,还有一个就是实现TwillApplicatio 阅读全文

posted @ 2023-02-05 11:04 荣锋亮 阅读(21) 评论(0) 推荐(0) 编辑

apache twill 开发参考流程
摘要:尽管apache twill 已经退役了,但是已经集成的周边还是不少的,比如dremio 就使用到了twill 对于yarn 的集成支持 参考开发流程 TwillRunnable 接口 类似多线程开发,我们实现此接口的服务主要就是任务的处理 public class EchoServer imple 阅读全文

posted @ 2023-02-05 10:51 荣锋亮 阅读(46) 评论(0) 推荐(0) 编辑

KettlePack 最新版本docker 镜像的制作说明
摘要:KettlePack 最新版本没有docker镜像,以下是制作的简单说明 原理 比较low,核心是替换tomcat webapp 的应用,可以先删除,然后进行copy 就可以了 参考Dockerfile 首先需要下载最新版本的war包,然后解压 FROM registry.cn-hangzhou.a 阅读全文

posted @ 2022-08-10 23:59 荣锋亮 阅读(220) 评论(0) 推荐(0) 编辑

KettlePack 功能比较完备的kettle 管理工具
摘要:KettlePack 是国人开发,并可以免费使用的管理kettle 任务的工具,界面以及体验还是不错的 运行 基于docker-compose 目前官方最新的是0.7.4 但是没有发布,我自己构建了一个,大家可以试用 version: '3' services: mysql: image: mysq 阅读全文

posted @ 2022-08-10 22:59 荣锋亮 阅读(1734) 评论(0) 推荐(0) 编辑

juicefs 单机试用
摘要:juicefs 让我们可以提高对象存储的一致性以及更加方便的进行数据分析 参考架构 参考试用 mac 系统,同时注意mac 系统需要安装osxfuse 安装 brew tap juicedata/homebrew-tap brew install juicefs 创建文件系统 juicefs for 阅读全文

posted @ 2021-12-26 23:02 荣锋亮 阅读(213) 评论(0) 推荐(0) 编辑

OpenMetadata 开放标准的元数据服务
摘要:OpenMetadata 是一个开放标准的元数据服务,可以在一个地方实现数据的发现,协作 包含的组件 元数据schema 元数据存储 元数据api 数据进入框架(插件化的框架支持多种数据库) 元数据界面 一张官方的参考图 说明 OpenMetadata 很多地方是依赖了json schema,同时目 阅读全文

posted @ 2021-08-29 23:16 荣锋亮 阅读(1539) 评论(0) 推荐(0) 编辑

delta lake minio+dremio 集成试用
摘要:参考集成模式 环境准备 基于docker 运行 spark 环境准备 docker run -it -p 8080:8080 datamechanics/spark:jvm-only-3.1-latest sh // 启动master /opt/spark/sbin/start-master.sh 阅读全文

posted @ 2021-06-24 20:38 荣锋亮 阅读(1000) 评论(5) 推荐(0) 编辑

使用 Delta Sharing 协议进行数据共享
摘要:Delta Sharing 是delta 团队提出的数据共享方案,发布时间不是很长(看github 的信息不到一个月),但是理念是很不错的提供了一个开放安全的进行数据共享的协议,同时官方也提供了一个server的实现 参考玩法 说明 Delta Sharing 是基于rest api 提供服务的,目 阅读全文

posted @ 2021-06-04 00:37 荣锋亮 阅读(368) 评论(0) 推荐(0) 编辑

几个开源的clickstream 分析工具
摘要:以下整理一些开源的分析工具,主要记录下 divolte 基于kafka, hadoop 的实现 matomo 以前是piwiki Open-Web-Analytics analytics Countly 参考资料 https://divolte.io/https://github.com/divol 阅读全文

posted @ 2021-02-12 22:36 荣锋亮 阅读(412) 评论(0) 推荐(0) 编辑

Materialize under the Hood
摘要:来自官方的一个简单介绍Materialize的工作原理,参考链接 https://materialize.io/materialize-under-the-hood/ Today we will take a bit of a tour of the moving parts that make u 阅读全文

posted @ 2020-11-01 13:18 荣锋亮 阅读(177) 评论(0) 推荐(0) 编辑

materialize 参考架构
摘要:materialize 包含了materialized 服务,用来处理sql 交互以及sources 参考图 materialize内部结构 参考说明 从以上图我们至少可以了解下materialize的工具机制 参考资料 https://materialize.io/docs/overview/ar 阅读全文

posted @ 2020-11-01 12:38 荣锋亮 阅读(371) 评论(0) 推荐(0) 编辑

materialize 试用
摘要:前边有大概介绍过materialize,以下是一个简单的试用(基于官方文档,官方同时也提供了容器的运行环境) 环境准备 docker-compose 文件 version: "3" services: materialize: image: materialize/materialized:v0.5 阅读全文

posted @ 2020-11-01 12:08 荣锋亮 阅读(488) 评论(0) 推荐(0) 编辑

materialize 基于sql 的流式数据处理平
摘要:materialize 是基于pg 开发的一个可以处理流式数据的平台,同时提供了强大的数据处理能力(也出现在了最新的技术雷达中) 参考处理图 通过下图可以看到支持批处理以及实时数据处理,我们可以通过sql 支持强大的数据处理 说明 materialize 基于rust 开发,从目前官方文档的介绍发现 阅读全文

posted @ 2020-11-01 11:11 荣锋亮 阅读(861) 评论(0) 推荐(0) 编辑

apache ignite docker集群运行试用
摘要:apache ignite 是一个很不错的内存计算平台 常见参考使用场景 应用缓存加速 数据集成hub 基于容器的集群环境部署 环境准备 说明为了方便基于静态ip发现的模式进行集群的搭建,关于静态ip配置,核心如下 <bean class="org.apache.ignite.spi.discove 阅读全文

posted @ 2020-10-14 19:18 荣锋亮 阅读(964) 评论(0) 推荐(0) 编辑

关于drill http存储插件http 超时的一些说明
摘要:默认http 存储插件的配置,参考 { "type": "http", "cacheResults": false, "connections": { "sunrise": { "url": "https://api.sunrise-sunset.org/json", "method": "GET" 阅读全文

posted @ 2020-10-12 23:36 荣锋亮 阅读(247) 评论(0) 推荐(0) 编辑

开发自己的jdbc驱动——可选开发工具
摘要:前边有简单介绍过关于jdbc驱动开发的说明,以下是一些简单的整理,提供关于快速开发jdbc的一些参考资料 驱动开发的一些说明 需要实现的接口 以下的接口是需要实现的,除过Driver 接口一般都会创建一个抽象类进行扩展 Statement ResultSetMetaData ResultSet Pr 阅读全文

posted @ 2020-10-11 21:15 荣锋亮 阅读(630) 评论(0) 推荐(0) 编辑

导航

< 2025年3月 >
23 24 25 26 27 28 1
2 3 4 5 6 7 8
9 10 11 12 13 14 15
16 17 18 19 20 21 22
23 24 25 26 27 28 29
30 31 1 2 3 4 5
点击右上角即可分享
微信分享提示