OpenMLDB 社区月报 | 2022年10月
OpenMLDB 开源机器学习数据库,提供线上线下一致的生产级特征平台。
技术动态
十月 v0.6.3 & v0.6.4 新特性
-
离线引擎升级到支持 Spark 3.2.1
-
增加 ValidateSQL 接口
-
CLI 时间显示日期改进
-
支持在线 batch 模式
-
支持全表聚合
-
支持和 TaskManager 解耦,导入本地数据
十月主要 Bug 修复
-
名称服务器重新启动后,部署可能无法恢复
-
如果第一列的类型是 bool, 则无法解析函数 count_where
-
如果索引已被删除,则重新创建索引会失败
来自社区开发者的实验特性
-
自动特征工程 by explcre
-
数据导出工具 by xiaopanz
-
GoSDK by qsliu2017
学术动态
论文发表
A System for Time Series Feature Extraction in Federated Learning
第四范式和新加坡国立大学合作的论文 "A System for Time Series Feature Extraction in Federated Learning" 被 CIKM 录取。该论文主要描述了基于 OpenMLDB 的时序数据特征抽取的语义,扩展到联邦学习的创新性研究工作。该方案进一步和流行的开源联邦学习框架 FATE 进行了无缝整合,进行了开源并且可以直接运行。经过实验验证,使用该方案的 FATE 应用模型质量(AUC)提升 3% , 召回率提升 10%;在广告投放业务中,带来 10% 的投放增效。
-
论文原文:
-
演讲视频:
-
代码 repo(包含了源代码以及和 FATE 整合的可运行框架):
社区动态
社区规模
- 截至十月底,OpenMLDB 社区累计收获了 1.7K Star,604 fork,123 watch。
- 截至十月底,共有 128 位开发者在社区做出贡献,累计产生 issue 共 1311 条、PR 1372 个。
- 十月中,OpenMLDB 进行了两次小版本迭代,发布了 v0.6.3 和 v0.6.4。
社区活动
分享活动
-
10月11日 15:35-16:00
OpenMLDB PMC 卢冕参与 AI for Good 2022 峰会,进行了以“OpenMLDB:A Real-Time Feature Platform Computing Consistent Features for Training and Inference”为主题的分享。
-
10月12日 7:05-7:15
OpenMLDB PMC 卢冕在 Feature Store Summit 2022 活动中为大家带来议题为“OpenMLDB: An Open-Source Real-Time Feature Platform Computing Consistent Features for Training and Inference”的内容分享。
-
10月27日 14:30-15:30
OpenMLDB PMC 张浩在 2022 SACC 中国系统架构师大会 中受邀分享“开源机器学习数据库 OpenMLDB:线上线下一致的高可用特征平台”的主题演讲。
贡献活动
-
OpenMLDB Bug 悬赏令在十月开启。
-
OpenMLDB 贡献者任务第五期、开发者嘉年华、开源摘星活动活动持续进行中。
-
期待各位开发者在贡献活动中获得技术上成长进步,也在开发应用中加深对 OpenMLDB 的了解,与 OpenMLDB 共建包容有活力的开源社区。
Meet us
OpenMLDB github 主页(更多十月技术动态请关注这里!): https://github.com/4paradigm/OpenMLDB
OpenMLDB 微信交流群