上一页 1 ··· 13 14 15 16 17 18 19 20 21 ··· 121 下一页

2023年10月4日

dremio 24.2 社区版发布

摘要: 就在昨天,dremio 提供了社区版的下载地址,24.2 提供了不少新特性 主要新特性 delta lake 不少新功能支持(历史,快照) 反射hints 支持(可以基于声明式定义) 一些新的半结构化数据聚合参数 自动反射推荐功能(属于企业版特性) 一些查询计划的优化(主要是修复一些历史之行计划的问 阅读全文

posted @ 2023-10-04 10:49 荣锋亮 阅读(33) 评论(0) 推荐(0) 编辑

apache hop kettle 替换方案

摘要: apache hop 是一个apache 开源的 kettle替换方案,提供了kettle 任务的导入能力,整体来说目前估计ga 了,而且还算活跃 参考架构 如下图,包含了gui,server,metadata store,runner。。。还是比较完整的 支持的功能 pipeline 开发 就是k 阅读全文

posted @ 2023-10-04 09:36 荣锋亮 阅读(391) 评论(0) 推荐(0) 编辑

2023年10月2日

gradio 机器学习应用共享框架

摘要: gradio 是一个机器学习应用共享框架,不少开源机器学习模型都基于gradio 提供了可以快速体验模型的ui 参考使用 安装 pip install gradio 简单代码 app.py import gradio as gr def greet(name): return "Hello " + 阅读全文

posted @ 2023-10-02 20:56 荣锋亮 阅读(209) 评论(0) 推荐(0) 编辑

2023年10月1日

modin pandas 大规模数据处理方案

摘要: modin 是一个可以快速替换原生pandas 的方案,我们只需要替换一个简单的引用,就可以将pandas 的数据处理速度有很大的提升modin 支持与不少框架的集成(ray, dask,unidisk),目前modin 对于常用read 操作都有很不错的支持,参考图 参考架构 如下图,可以看出mo 阅读全文

posted @ 2023-10-01 21:57 荣锋亮 阅读(53) 评论(0) 推荐(0) 编辑

aws awswrangler 集成minio 简单试用

摘要: aws awswrangler 现在已经改名为aws-sdk-pandas,但是对于python 使用的时候安装已经是使用awswrangler 名称 以下是一个简单的集成 minio 的测试,核心是配置环境变量,这个也比较符合aws 对于相关资源的集成玩法 环境准备 docker-compose 阅读全文

posted @ 2023-10-01 21:34 荣锋亮 阅读(64) 评论(0) 推荐(0) 编辑

pandas 加载minio 文件数据

摘要: 就是一个简单记录,基于s3 进行文件存储还是比较方便的 环境准备 docker-compose.yaml version: '3' services: minio: image: minio/minio ports: - "9002:9000" - "19001:19001" environment 阅读全文

posted @ 2023-10-01 09:03 荣锋亮 阅读(100) 评论(0) 推荐(0) 编辑

2023年9月30日

citus 12.1 新特性

摘要: 最近pg 16的发布了,citus 也比较快直接很快就支持16了,同时citus 也发布了12.1 版本以下是一些新特性 新特性 pg 16 支持以及比较多的pg 16 特新到citus 分布式表的支持 pg 16 load lalance 支持,实际上是从citus 合并到pg 的 pg json 阅读全文

posted @ 2023-09-30 15:18 荣锋亮 阅读(78) 评论(0) 推荐(0) 编辑

tusd 2.0 发布

摘要: tusd 是基于golang 开发的,对于tus 断点续传协议的实现,既可以做为server 使用,也可以使用golang 包,开发自己的文件存储服务2.0了有不少提升,核心主要是hook 系统,类似的nodejs server 也实现不少hook,支持IETF 协议了,同时也提升了网络可靠性 说明 阅读全文

posted @ 2023-09-30 11:29 荣锋亮 阅读(90) 评论(0) 推荐(0) 编辑

dbt dbt-project-evaluator 扩展

摘要: dbt-project-evaluator 是官方提供的一个dbt 扩展,可以方便的自动帮助我们发现模型DAG的问题 支持的功能 协助模型的最佳实践 协助测试的最佳实践 协助文档的最佳实践 协助项目文件结构的最佳实践 协助模型物化最佳实践 协助模型治理最佳实践 目前支持的数据库 bigquery d 阅读全文

posted @ 2023-09-30 11:14 荣锋亮 阅读(23) 评论(0) 推荐(0) 编辑

2023年9月26日

nginx-clojure nginx 1.25.2 版本docker 镜像

摘要: 主要是测试下nginx-clojure 有nginx 1.25.2 的兼容性,顺便基于原有的构建弄一个方便测试的debug 版本的镜像 构建 构建命令 实际结合业务修改下 ./configure --prefix= --sbin-path=nginx --conf-path=conf/nginx.c 阅读全文

posted @ 2023-09-26 10:36 荣锋亮 阅读(149) 评论(0) 推荐(0) 编辑

2023年9月24日

开发一个简单的swift 包

摘要: swift 对于包包含了比较严格的访问控制,套路上与rust 比较类似,一般开发的项目都是自己项目的代码,以及引用别人开发 好的包,但是很多时候可能会有自己开发包共享别人的场景 简单包 可以直接使用swift 的cli 创建,或者手工 代码结构 ├── Package.swift └── Sourc 阅读全文

posted @ 2023-09-24 10:40 荣锋亮 阅读(36) 评论(0) 推荐(0) 编辑

2023年9月22日

vapor 基于swift 的web 框架

摘要: vapor是基于swift 的web 框架,包含了不少功能,官方也提供了不少扩展,同时官方提供的模版可以直接基于docker 运行 说明 对于希望学习swift 同时基于swift 开发web 应用的是一个不错的选择,可以学习练练手 参考资料 https://vapor.codes/https:// 阅读全文

posted @ 2023-09-22 22:25 荣锋亮 阅读(91) 评论(0) 推荐(0) 编辑

'main' attribute cannot be used in a module that contains top-level code 问题解决

摘要: 核心是@main 注解在main.swift 文件中,可以重新命名下 参考资料 https://stackoverflow.com/questions/73431031/swift-cli-app-main-attribute-cannot-be-used-in-a-module-that-cont 阅读全文

posted @ 2023-09-22 22:15 荣锋亮 阅读(36) 评论(0) 推荐(0) 编辑

2023年9月21日

graalvm 23.1.0 python 试用

摘要: graalvm 23.1.0 开始python 集成也做为一个独立的包了,同时官方文档也有一些安装说明,比如下载包的,基于pyenv的 目前pyenv 的是不成功的(repo 似乎还没更新) 安装 直接使用安装包,直接可以github 下载,包含了不同的版本,直接可以下载企业版使用 参考代码 app 阅读全文

posted @ 2023-09-21 17:01 荣锋亮 阅读(215) 评论(0) 推荐(0) 编辑

2023年9月20日

graalvm 23.1.0 关于python 集成的说明

摘要: 从graalvm 23.1.0 开始,python 的集成与nodejs 类似也是独立了,使用上与nodejs 类似,可以简化不少集成 参考资料 https://github.com/oracle/graalpython/releases/tag/graal-23.1.0https://www.gr 阅读全文

posted @ 2023-09-20 11:18 荣锋亮 阅读(85) 评论(0) 推荐(0) 编辑

graalvm 23.1.0 独立nodejs docker 镜像&简单试用

摘要: graaljs docker 镜像 很简单就是下载官方包,集成下,然后进行一些简单的配置 Dockerfile FROM debian:bullseye-backports LABEL author="rongfengliang" LABEL email="1141591465@qq.com" WO 阅读全文

posted @ 2023-09-20 11:09 荣锋亮 阅读(147) 评论(0) 推荐(0) 编辑

graalvm 23.1.0 开始 js 引擎独立了

摘要: 从graalvm 23.1.0 开始graaljs 可以独立使用了,这样就方便了不少,我们可以集成jvm 同时也可以集成nodejs 但是软件包会小不少有利用项目的使用,目前来说官方提供了不同版本的,包含了js 命令的nodejs 的同时包含jvm 的对于社区版包含了-community,jvm的包 阅读全文

posted @ 2023-09-20 10:32 荣锋亮 阅读(303) 评论(0) 推荐(0) 编辑

graalvm jdk 21 版本发布

摘要: graalvm 效率还是挺快的,java 21 版本虚拟线程以及ga可,graalvm 对于21 版本支持的发布,让我们也可以直接使用了从官方介绍以及解决来看,性能提升是很大的,在一些测试场景中 native image 比C2 jit 还快 说明 目前官方已经提供了21 的下载包可以体验使用 参考 阅读全文

posted @ 2023-09-20 09:46 荣锋亮 阅读(278) 评论(0) 推荐(0) 编辑

一些不错的python 特征工程包

摘要: 特征工程在机器学习中是比较重要的,而且也是比较花费时间的,而且对于不同场景的业务(序列,机器视觉,NLP)会有不同的处理方式,整理了一些日常使用比较多的工具,可以参考 工具包 scikit-learn 比较老牌了,提供了不少特征工程的工具包,同时也提供了不少相关的算法实现 autofeat 实现上与 阅读全文

posted @ 2023-09-20 09:15 荣锋亮 阅读(59) 评论(0) 推荐(0) 编辑

2023年9月19日

cloudpickle pickle 扩展包

摘要: pickle 是python的序列化包,但是默认pickle 不能进行lambda 的处理,cloudpickle 对于pickle 进行了一些扩展,可以更好的支持 集群节点之间的共享以及计算,同时apache spark 的pyspark 也集成了此功能,只是是自己fork的完整代码 参考使用 d 阅读全文

posted @ 2023-09-19 17:09 荣锋亮 阅读(68) 评论(0) 推荐(0) 编辑

feast 开源feature store

摘要: 对于机器学习特征处理是一个比较重要,特征的质量会严重影响模型的质量,而且很多时候我们都是希望实时的特征数据feast 是一个开源的特征存储实现,包含了离线以及实时特征的存储以及获取(包含了sdk,可以进行特征的获取) 参考架构 包含的组件:registry: 对象存储,持久化特征,我们可以通过sdk 阅读全文

posted @ 2023-09-19 14:11 荣锋亮 阅读(204) 评论(0) 推荐(0) 编辑

embeddedkafka 方便测试的基于内存的kafka 实现

摘要: embeddedkafka 方便测试的基于内存的kafka 实现,可以用来方便的进行基于kafka 周边的测试目前embeddedkafka提供了stream,core,conenct 以及schema-registry,对于测试场景是一个不错的选择 参考资料 https://github.com/ 阅读全文

posted @ 2023-09-19 13:42 荣锋亮 阅读(53) 评论(0) 推荐(0) 编辑

tus java client 使用以及问题说明

摘要: 代码来自官方参考,支持在使用的时候发现了一些问题记录下 参考代码 App.java package org.example; import io.tus.java.client.*; import java.io.File; import java.io.IOException; import ja 阅读全文

posted @ 2023-09-19 13:02 荣锋亮 阅读(153) 评论(0) 推荐(0) 编辑

tus-node-server 官方基于node 实现的tus server 1.0 发布

摘要: tus-node-server 是基于typescript 开发的新的nodejs server,通过拆分为独立的包(file,s3,gcs, server ) 包含的特性 完全基于typescript 开发 拆分为了独立的包 提供了新的events 以及hooks 升级了依赖包 重新设计了存储 f 阅读全文

posted @ 2023-09-19 10:59 荣锋亮 阅读(52) 评论(0) 推荐(0) 编辑

2023年8月30日

oceanbase odc 开源了

摘要: 我以前也打开简单说过,oceanbase odc 的实现(通过同时猜测的),就在今天odc 整体源码开源了,对于需要自己扩展的同学是比较方便的,同时也可以更好的学习odc 的实现机制 目前odc 包含的组件 client web 前端,同时也有基于electron 包装的客户端,会启动jar 暴露的 阅读全文

posted @ 2023-08-30 21:32 荣锋亮 阅读(100) 评论(0) 推荐(0) 编辑

2023年8月22日

apache spark connect 试用

摘要: spark connect 3.4 开始就支持了connect 模式,3.4.1 比较稳定了 connect server 启动 实际上就是一个spark 引用,通过spark_submit 提交到spark 环境中 启动 ./sbin/start-connect-server.sh --packa 阅读全文

posted @ 2023-08-22 22:02 荣锋亮 阅读(380) 评论(0) 推荐(0) 编辑

2023年8月21日

spark on k8s 开发部署简单实践

摘要: 实际上就是一个简单的实践,方便参考,对于开发以及运行,集成ci/cd 以及dophinscheduler 任务调度为了方便开发的spark 应用共享以及使用基于s3 进行文件存储(当然dophinscheduler 也是支持自己的资源库的) 参考图 玩法说明 基于gitlab 进行代码管理,通过ci 阅读全文

posted @ 2023-08-21 22:38 荣锋亮 阅读(124) 评论(0) 推荐(0) 编辑

2023年8月14日

kestra 试用体验

摘要: kestra 官方是提供了基于docker-compose 运行的模版,以下主要是体验下,实际上kestra 提供的一些能力还是很强大的 尤其是强大的插件开发能力 环境准备 docker-compose 文件 volumes: postgres-data: driver: local kestra- 阅读全文

posted @ 2023-08-14 21:12 荣锋亮 阅读(942) 评论(1) 推荐(1) 编辑

2023年8月12日

kestra apache airflow 可选方案

摘要: 今天我有简单说明过一个mage-ai 的airflow 替换方案,kestra 是另外一个可选方案kestra 使用了yaml 进行piepline 的配置,当然我们也可以直接在ui 中操作,kestra包含了自己的插件系统 适合的业务场景 数据调度 分布式调度 事件驱动workflow 说明 ke 阅读全文

posted @ 2023-08-12 18:28 荣锋亮 阅读(210) 评论(0) 推荐(0) 编辑

mage-ai 简单试用体验

摘要: 主要测试下集成minio s3,同时体验下mage-ai 环境准备 docker-compose 文件 version: '3' services: minio: image: minio/minio ports: - "9003:9000" - "19002:19001" environment: 阅读全文

posted @ 2023-08-12 18:21 荣锋亮 阅读(307) 评论(0) 推荐(0) 编辑

mage-ai 替换airflow 的现代数据pipeline 平台

摘要: mage-ai 是一个可以替换airflow 的现代数据pipeline 平台 包含的特性 友好的开发体验 支持python,sql,r 语言 不以来DAG 的可开发模式 交互式代码 数据优先 基于云的协作 快速部署 扩展简单 提供可观测性 说明 官方提供来的demo 站点,可以方便的体验学习,目前 阅读全文

posted @ 2023-08-12 13:09 荣锋亮 阅读(206) 评论(0) 推荐(0) 编辑

python 新的包构建模式

摘要: 实际上是PEP 517 的定义,主要是对于基于distutils以及setuptools 已经存在太久的时间了,需要一些调整了目前已经有了不少相关的实现了,同时也有不少python 包的开发就是基于了新的规范了,hatch 以及poetry 是一个不错的选择 说明 关于python包开发的,有一本很 阅读全文

posted @ 2023-08-12 12:35 荣锋亮 阅读(20) 评论(0) 推荐(0) 编辑

dbt 官方提供的一些强大的周边扩展

摘要: 官方提供的一些不错的dbt 周边扩展 metricflow 此功能属于dbt 语义曾的一个核心组件这个是官方在推广的,对于我们进行数据分析很不错,参考玩法 dbt-meshify 这个属于dbt core 的一个扩展,提供了创建group,contract,access,version 以及进行项目 阅读全文

posted @ 2023-08-12 12:21 荣锋亮 阅读(160) 评论(0) 推荐(0) 编辑

2023年8月8日

dbt 新的基于视图的物化能力

摘要: dbt 在v1.6 版本,官方提供的不少adapter 支持了基于视图的物化处理,这个是一个很不错的功能技术上利用了db 提供的能力,官方提供了相关的介绍,具体可以参考连接 参考资料 https://docs.getdbt.com/blog/announcing-materialized-views 阅读全文

posted @ 2023-08-08 23:15 荣锋亮 阅读(36) 评论(0) 推荐(0) 编辑

dbt modules 宏简单说明

摘要: dbt modules 宏提供了让dbt 访问python 包的能力,处理上基于了jinja 的上下问处理,但是目前官方没有完整暴露此方法 核心还是因为安全问题,只提供了一些时间、正则、迭代处理的,实际使用上基于了python 模块的动态加载(getattr) modules 宏的使用参考 {% s 阅读全文

posted @ 2023-08-08 23:02 荣锋亮 阅读(44) 评论(0) 推荐(0) 编辑

2023年8月6日

cookiecutter python 项目模版工具

摘要: cookiecutter python 项目模版工具,可以帮助我们快速基于模版生成python 项目(当然也支持c 项目)有不少python 项目都是基于此工具的比如dbt adapter 开发就基于此提供了方便的adapter 生成 dbt adapter 参考模版 cookiecutter 创建 阅读全文

posted @ 2023-08-06 21:10 荣锋亮 阅读(42) 评论(0) 推荐(0) 编辑

dperf minio 团队开源的磁盘性能测试工具

摘要: dperf minio 团队开源的磁盘性能测试工具 基于golang 开发,使用简单,类似的有fio 说明 相比fio dperf 没有那么多的参数,实际上dperf 核心似乎主要是为了方便minio 使用的,但是对于日常中需要测试一些磁盘问题也是可以的,可以用来发现磁盘的瓶颈 参考资料 https 阅读全文

posted @ 2023-08-06 12:06 荣锋亮 阅读(118) 评论(0) 推荐(0) 编辑

jinjat 基于dbt 构建低代码数据应用

摘要: jinjat 的设计还是比较有意思的,直接利用了dbt,同时利用了一个analyses配置,analyses 在dbt 中更多属于一个基于现有的模型进行编译,但是不进行 执行,jinjat 就利用了功能,但是扩展了下 参考使用 模型 analysis/my_first_api.sql {%- set 阅读全文

posted @ 2023-08-06 11:39 荣锋亮 阅读(34) 评论(0) 推荐(0) 编辑

dbt-duckdb dbt duckdb 强大的adapter

摘要: dbt-duckdb 是一个dbt 扩展,功能很强大,同时社区也有相关的文章,使用duckdb 替换spark 处理一些数据的pipeline因为duckdb 具有很不错的olap 性能,同时支持不少外部数据集成(比如s3,http,parquet,pg。。。。)dbt-duckdb扩展使用起来很方 阅读全文

posted @ 2023-08-06 11:13 荣锋亮 阅读(209) 评论(0) 推荐(0) 编辑

dbt adapter 开发一些资料

摘要: dbt 演变以及周边工具是越来月多了,而且有不少db 已经支持dbt 的集成玩法了,官方提供了一些相关开发文档,一些不是很清晰对于我们实际需要开发的,就可以自己摸索,现在new sql 是越来越多了,但是并不是都能更好的支持dbt 内置的一些功能, 连接管理部分 这个部分官方有完整的信息,文档有提供 阅读全文

posted @ 2023-08-06 11:05 荣锋亮 阅读(49) 评论(0) 推荐(0) 编辑

上一页 1 ··· 13 14 15 16 17 18 19 20 21 ··· 121 下一页

导航