ytsaurus yandex 开源的大数据平台 - 荣锋亮 - 博客园

ytsaurus yandex 开源的大数据平台

ytsaurus yandex 开源的大数据平台

支持的特性

对租户，包含看了mapreduce，sql 查询引擎，job 调度，面向oltp 的key value 存储
可靠以及稳定，无单点故障，自动复制，更新不丢失数据
可扩展，支持百万级别的cpu 以及千级别的GPU，支持EB 级别的HDD，SSD，NVME，RAM，10000 级别的节点，服务自动缩放
丰富的功能，mapreduce 模型，分布式acid 支持，sdk 以及api 支持，安全的计算存储分离，用户友好的ui
基于clickhouse 的CHYT，集成JDBC 以及ODBC 驱动，快速查询
基于apache spark 的SPYT，支持方便的ETL 处理，支持不同集群的隔离，可以方便的与现有解决方案集成

使用场景

批处理使用mapreduce 以及SPYT
即席查询，基于CHYT 的快速查询
OLTP，低延迟的事物key value 存储
机器学习，管理GPU 集群，进行模型学习训练
元数据存储，元数据可靠存储，以及支持分布式协调服务
ETL pipeline基于apache spakr sql， mapreduce 等

参考组件

组件简单说明:
cypress 分布式存储系统以及元数据存储
yql， sql 方便的查询，支持udf，窗口函数
chyt 运行clickhouse
spyt 运行 apache spark

说明

ytsaurus 目前从介绍以及官方的一些使用数据看还是比较吸引人的，值得研究学习下，同时官方文档也是比较全的

参考资料

https://github.com/ytsaurus/ytsaurus
https://ytsaurus.tech/
https://medium.com/yandex/ytsaurus-exabyte-scale-storage-and-processing-system-is-now-open-source-42e7f5fa5fc6

posted on 2023-03-21 20:01 荣锋亮阅读(305) 评论(0) 收藏举报

刷新页面返回顶部

导航

公告