随笔 - 368, 文章 - 0, 评论 - 56, 阅读 - 94万
  博客园  :: 首页  :: 联系 :: 管理

2023数据工程开源技术跟踪

Posted on   天戈朱  阅读(1315)  评论(0编辑  收藏  举报

AllData 一站式大数据平台

1、BitSail (数据集成) : BitSail是字节跳动旗下引擎的数据集成引擎,于2022年10月26日正式开源,采用 Apache 2.0 开源许可。 

  • BitSail 支持多种异构数据源间的数据同步,并提供离线、实时、全量、增量场景下的全域数据集成解决方案,目前服务于字节内部几乎所有业务线,包括抖音、今日头条等大家耳熟能详的应用,同时也支撑了火山引擎多个客户的数据集成需求。
  • github:https://github.com/bytedance/bitsail

2、InLong (数据集成):Apache InLong(应龙)最初于 2019 年 11 月由腾讯大数据团队捐献到 Apache 孵化器,2022 年 6 月正式毕业成为 Apache 顶级项目

  • 一站式的海量数据集成框架,提供自动、安全、可靠和高性能的数据传输能力,方便业务构建基于流式的数据分析、建模和应用。
  • Apache InLong 以腾讯大数据的 TDBank 系统为基础,依托近百万亿级别的数据接入和处理能力,整合了数据采集、汇聚、存储、分拣数据处理全流程,拥有简单易用、灵活扩展、稳定可靠等特性。
  • github:https://github.com/apache/inlong

 3、Debezium (CDC):最早是 Red Hat 的开源项目,是基于 Kafka Connect 框架的 CDC(Change Data Capture) 工具

  • 它可以对接 MySQL、PostgreSQL、SQL Server、Oracle、MongoDB 等多种SQL及NoSQL数据库,把这些数据库的数据持续以统一的格式发送到 Kafka 的主题,供下游进行实时消费。
  • github:https://github.com/debezium/debezium

 4、Griffin (数据质量):依托Apache  Griffin平台,为您提供全链路的数据质量方案,包括数据探查、对比、质量监控、SQL扫描和智能报警等功能

  • Apache Griffin 是一个建立在 Apache Hadoop 和 Apache Spark 之上的数据质量服务平台 (DQSP)。
  • 它提供了一个全面的框架来处理不同的任务,例如定义数据质量模型、执行数据质量测量、自动化数据分析和验证,以及跨多个数据系统的统一数据质量可视化。 它旨在解决大数据应用中数据质量领域的挑战
  • github:https://github.com/apache/griffin

 5、Ranger (数据安全):数据全生命周期的安全管控、安全预警机制,让数据使用安全、合规;

  • Apache Ranger 提供了一个集中式的安全管理框架,用户可以通过操作Ranger控制台来配置各种策略,从而实现对Hadoop生态组件如HDFS、Hive、HBase、Yarn等进行细粒度的数据访问控制。
  • github:https://github.com/apache/ranger

  6、TIS (数据抽取):基于Alibaba DataX,并且在原生DataX之上添加了功能特性大大提高了DataX的可用性、实时数据同步框架Flink-CDC和Chunjun

  7、Chunjun(数据抽取):原名FlinkX,是一款基于Flink的数据同步工具

  • 可以收集静态数据,如MySQL,HDFS等,以及实时变化的数据,如MySQL binlog,Kafka等。
  • 同时,春军也是一个计算框架,支持原生FlinkSql的所有语法和功能,并提供了大量的案例。
  • github:https://github.com/DTStack/chunjun/

 8、ByConity(数仓引擎):基于ClickHouse构建的一个为现代云架构变化设计的数据仓库。它采用云原生架构设计,满足数据仓库用户对灵活扩展、读写分离、资源隔离和强数据一致性的需求。同时,它提供了卓越的查询和写入性能。

  • 对于字节跳动开源的数仓引擎ByConity的评价,应该考虑其在性能、稳定性、可扩展性、易用性、支持和社区等方面的表现。
  • github:https://github.com/ByConity/ByConity

 9、ELAdmin(框架):一款基于 Spring Boot 2.1.0 、 Jpa、 Spring Security、redis、Vue 的前后端分离的后台管理系统,项目采用分模块开发方式, 权限控制采用 RBAC,支持数据字典与数据权限管理,支持一键生成前后端代码,支持动态路由

10、datart(可视化):新一代数据可视化开放平台,支持报表、仪表板、大屏、分析和可视化数据应用的敏捷构建

  • 由原 davinci 主创团队出品,datart 更加开放、可塑和智能,并在数据与艺术之间寻求最佳平衡
  • datart 是新一代数据可视化开放平台,支持各类企业数据可视化场景需求,如创建和使用报表、仪表板和大屏,进行可视化数据分析,构建可视化数据应用等
  • github:https://github.com/running-elephant/datart

 11、Erda(平台):Erda 是新一代数字化云原生 PaaS 平台,其核心包含三大模块:应用(微服务)研发治理平台、快数据治理平台和混合云管理平台

  • 应用(微服务)研发治理平台具备项目管理、API 管理、CI/CD、自动化测试、应用管理、监控、日志分析、APM 和微服务观测等核心功能,从需求分析到上线交付,实现真正的一站式全流程管理
  • 快数据治理平台采用流批一体的架构设计,基于实时的数据计算,提供数据源管理、数据地图、数据模型开发、数据资产、数据血缘等一体化的数据治理能力,可应用于数据中台建设、实时数据仓库建设等场景
  • 混合云管理平台基于 Kubernetes(K8s)架构的容器云服务,提供 K8s 的可视化管理、常见公有云的资源管理和编排,以及立体式的智能监控告警,能够将应用部署到不同的云平台,实现混合云架构
  • github:https://github.com/erda-project/erda

 12、SreWorks(运维管理):数智化”运维SaaS管理套件。提供企业的应用&资源管理及运维开发两大核心能力,帮助企业实现云原生应用&资源的交付运维。

  • 阿里巴巴大数据SRE团队云原生运维平台 SREWorks,沉淀了团队近10年经过内部业务锤炼的 SRE 工程实践,秉承“数据化、智能化”运维思想,帮助运维行业更多的从业者采用“数智”思想做好高效运维
  • github:https://github.com/alibaba/SREWorks

 13、Cube Studio(AI平台):cube是 腾讯音乐 开源的一站式云原生机器学习平台

 14、DataEase(可视化):2021年6月开始开源,DataEase 支持丰富的数据源连接,能够通过拖拉拽方式快速制作图表,并可以方便的与他人分享,仅首页仪表盘专业、模板多,适用于大屏

 

 Flag:

  • datart  VS superSet:快速可视化平台升级迭代(面向最终用户的自助)?
  • Erda:快速数据治理平台(标签、数据治理)?
  • Griffin:质量管理(AllData)? 
  • Debezium:Flink CDC?
  • SreWorks:社区版功能研究? 
  • Cube Studio 平台预研?

参考资料:


相关博文:
阅读排行:
· .NET 10 首个预览版发布,跨平台开发与性能全面提升
· 全程使用 AI 从 0 到 1 写了个小工具
· 快收藏!一个技巧从此不再搞混缓存穿透和缓存击穿
· AI 插件第二弹,更强更好用
· Blazor Hybrid适配到HarmonyOS系统
点击右上角即可分享
微信分享提示