大数据 - 随笔分类 - 荣锋亮

snowflake polaris iceberg rest catalog 代码发布到github 了

摘要：就在7月低snowflake 的 polaris 代码以及发布到github 了，以下是一些资料可以参考说明从介绍上polaris 实际上包含了不少nessie 的能力，后续如果与dremio 的集成，还是值得期待的，在今年dremio 的发布会上，说是会包含一个基于rest catalog 的阅读全文

posted @ 2024-08-13 00:32 荣锋亮阅读(36) 评论(0) 推荐(0) 编辑

deequ aws 开源的数据质量框架

摘要：deequ 是aws 开源的基于spark 的数据质量框架（数据单元测试），同时也提供了python 包 deequ 提供的能力 metrics 计算约束建议约束校验 metrics repo 参考架构图说明对于希望实现数据质量的团队deequ的设计还是很值得学习参考的，只是目前是基于spa 阅读全文

posted @ 2024-06-20 07:16 荣锋亮阅读(184) 评论(0) 推荐(0) 编辑

fugue 分布式计算通用接口

摘要：fugue提供了通用方便分布式计算的接口，可以高效的访问大数据项目，提供了python，pandas，sql 等模式如下图从上图可以看出fugue 提供了一个语义层，我们的计算任务可以运行在ray，dask，spark，以及duckdb 中参考架构可以看出fugue 提供了不少方便的能力，比如阅读全文

posted @ 2023-12-23 10:16 荣锋亮阅读(38) 评论(0) 推荐(0) 编辑

ytsaurus yandex 开源的大数据平台

摘要：ytsaurus yandex 开源的大数据平台支持的特性对租户，包含看了mapreduce，sql 查询引擎，job 调度，面向oltp 的key value 存储可靠以及稳定，无单点故障，自动复制，更新不丢失数据可扩展，支持百万级别的cpu 以及千级别的GPU，支持EB 级别的HDD，阅读全文

posted @ 2023-03-21 20:01 荣锋亮阅读(293) 评论(0) 推荐(0) 编辑

dremio DacDaemonYarnApplication 简单说明

摘要：DacDaemonYarnApplication 属于dremio 通过twill 集成yarn 的应用指南定义，核心是实现了标准的TwillApplication接口前边有简单说过twill 的运行，一个是通过实现TwillRunnable 接口的，还有一个就是实现TwillApplicatio 阅读全文

posted @ 2023-02-05 11:04 荣锋亮阅读(21) 评论(0) 推荐(0) 编辑

apache twill 开发参考流程

摘要：尽管apache twill 已经退役了，但是已经集成的周边还是不少的，比如dremio 就使用到了twill 对于yarn 的集成支持参考开发流程 TwillRunnable 接口类似多线程开发，我们实现此接口的服务主要就是任务的处理 public class EchoServer imple 阅读全文

posted @ 2023-02-05 10:51 荣锋亮阅读(46) 评论(0) 推荐(0) 编辑

KettlePack 最新版本docker 镜像的制作说明

摘要：KettlePack 最新版本没有docker镜像，以下是制作的简单说明原理比较low，核心是替换tomcat webapp 的应用，可以先删除，然后进行copy 就可以了参考Dockerfile 首先需要下载最新版本的war包，然后解压 FROM registry.cn-hangzhou.a 阅读全文

posted @ 2022-08-10 23:59 荣锋亮阅读(220) 评论(0) 推荐(0) 编辑

KettlePack 功能比较完备的kettle 管理工具

摘要：KettlePack 是国人开发，并可以免费使用的管理kettle 任务的工具，界面以及体验还是不错的运行基于docker-compose 目前官方最新的是0.7.4 但是没有发布，我自己构建了一个，大家可以试用 version: '3' services: mysql: image: mysq 阅读全文

posted @ 2022-08-10 22:59 荣锋亮阅读(1734) 评论(0) 推荐(0) 编辑

juicefs 单机试用

摘要：juicefs 让我们可以提高对象存储的一致性以及更加方便的进行数据分析参考架构参考试用 mac 系统,同时注意mac 系统需要安装osxfuse 安装 brew tap juicedata/homebrew-tap brew install juicefs 创建文件系统 juicefs for 阅读全文

posted @ 2021-12-26 23:02 荣锋亮阅读(213) 评论(0) 推荐(0) 编辑

OpenMetadata 开放标准的元数据服务

摘要：OpenMetadata 是一个开放标准的元数据服务，可以在一个地方实现数据的发现，协作包含的组件元数据schema 元数据存储元数据api 数据进入框架（插件化的框架支持多种数据库）元数据界面一张官方的参考图说明 OpenMetadata 很多地方是依赖了json schema，同时目阅读全文

posted @ 2021-08-29 23:16 荣锋亮阅读(1539) 评论(0) 推荐(0) 编辑

delta lake minio+dremio 集成试用

摘要：参考集成模式环境准备基于docker 运行 spark 环境准备 docker run -it -p 8080:8080 datamechanics/spark:jvm-only-3.1-latest sh // 启动master /opt/spark/sbin/start-master.sh 阅读全文

posted @ 2021-06-24 20:38 荣锋亮阅读(1000) 评论(5) 推荐(0) 编辑

使用 Delta Sharing 协议进行数据共享

摘要：Delta Sharing 是delta 团队提出的数据共享方案，发布时间不是很长(看github 的信息不到一个月)，但是理念是很不错的提供了一个开放安全的进行数据共享的协议，同时官方也提供了一个server的实现参考玩法说明 Delta Sharing 是基于rest api 提供服务的，目阅读全文

posted @ 2021-06-04 00:37 荣锋亮阅读(368) 评论(0) 推荐(0) 编辑

几个开源的clickstream 分析工具

摘要：以下整理一些开源的分析工具，主要记录下 divolte 基于kafka, hadoop 的实现 matomo 以前是piwiki Open-Web-Analytics analytics Countly 参考资料 https://divolte.io/https://github.com/divol 阅读全文

posted @ 2021-02-12 22:36 荣锋亮阅读(412) 评论(0) 推荐(0) 编辑

Materialize under the Hood

摘要：来自官方的一个简单介绍Materialize的工作原理，参考链接 https://materialize.io/materialize-under-the-hood/ Today we will take a bit of a tour of the moving parts that make u 阅读全文

posted @ 2020-11-01 13:18 荣锋亮阅读(177) 评论(0) 推荐(0) 编辑

materialize 参考架构

摘要：materialize 包含了materialized 服务，用来处理sql 交互以及sources 参考图 materialize内部结构参考说明从以上图我们至少可以了解下materialize的工具机制参考资料 https://materialize.io/docs/overview/ar 阅读全文

posted @ 2020-11-01 12:38 荣锋亮阅读(371) 评论(0) 推荐(0) 编辑

materialize 试用

摘要：前边有大概介绍过materialize，以下是一个简单的试用（基于官方文档，官方同时也提供了容器的运行环境）环境准备 docker-compose 文件 version: "3" services: materialize: image: materialize/materialized:v0.5 阅读全文

posted @ 2020-11-01 12:08 荣锋亮阅读(488) 评论(0) 推荐(0) 编辑

materialize 基于sql 的流式数据处理平

摘要：materialize 是基于pg 开发的一个可以处理流式数据的平台，同时提供了强大的数据处理能力（也出现在了最新的技术雷达中）参考处理图通过下图可以看到支持批处理以及实时数据处理，我们可以通过sql 支持强大的数据处理说明 materialize 基于rust 开发，从目前官方文档的介绍发现阅读全文

posted @ 2020-11-01 11:11 荣锋亮阅读(861) 评论(0) 推荐(0) 编辑

apache ignite docker集群运行试用

摘要：apache ignite 是一个很不错的内存计算平台常见参考使用场景应用缓存加速数据集成hub 基于容器的集群环境部署环境准备说明为了方便基于静态ip发现的模式进行集群的搭建，关于静态ip配置，核心如下 <bean class="org.apache.ignite.spi.discove 阅读全文

posted @ 2020-10-14 19:18 荣锋亮阅读(964) 评论(0) 推荐(0) 编辑

关于drill http存储插件http 超时的一些说明

摘要：默认http 存储插件的配置，参考 { "type": "http", "cacheResults": false, "connections": { "sunrise": { "url": "https://api.sunrise-sunset.org/json", "method": "GET" 阅读全文

posted @ 2020-10-12 23:36 荣锋亮阅读(247) 评论(0) 推荐(0) 编辑

开发自己的jdbc驱动——可选开发工具

摘要：前边有简单介绍过关于jdbc驱动开发的说明，以下是一些简单的整理，提供关于快速开发jdbc的一些参考资料驱动开发的一些说明需要实现的接口以下的接口是需要实现的，除过Driver 接口一般都会创建一个抽象类进行扩展 Statement ResultSetMetaData ResultSet Pr 阅读全文

posted @ 2020-10-11 21:15 荣锋亮阅读(630) 评论(0) 推荐(0) 编辑

随笔分类 - 大数据

导航

公告

搜索

常用链接

最新随笔

积分与排名

随笔分类 (3865)

随笔档案 (4865)

文章分类 (205)

文章档案 (175)

.net 安全揭秘

DB

geohash 学习

graphql

IE 浏览器

IIS

IOT

open xml

REST 设计

sharepoint

sql server CLR

SSIS 学习

UML

vsto

web

Web service

windows 服务

插件开发

复杂事件处理

技术

类库

流量分析

敏捷

移动

运维