ytsaurus yandex 开源的大数据平台
ytsaurus yandex 开源的 大数据平台
支持的特性
- 对租户,包含看了mapreduce,sql 查询引擎,job 调度,面向oltp 的key value 存储
- 可靠以及稳定,无单点故障,自动复制,更新不丢失数据
- 可扩展,支持百万级别的cpu 以及千级别的GPU,支持EB 级别的HDD,SSD,NVME,RAM,10000 级别的节点,服务自动缩放
- 丰富的功能,mapreduce 模型,分布式acid 支持,sdk 以及api 支持,安全的计算存储分离,用户友好的ui
- 基于clickhouse 的CHYT,集成JDBC 以及ODBC 驱动,快速查询
- 基于apache spark 的SPYT,支持方便的ETL 处理 ,支持不同集群的隔离,可以方便的与现有解决方案集成
使用场景
- 批处理使用mapreduce 以及SPYT
- 即席查询,基于CHYT 的快速查询
- OLTP,低延迟的事物key value 存储
- 机器学习,管理GPU 集群,进行模型学习训练
- 元数据存储,元数据可靠存储,以及支持分布式协调服务
- ETL pipeline基于apache spakr sql, mapreduce 等
参考组件
组件简单说明:
cypress 分布式存储系统以及元数据存储
yql, sql 方便的查询,支持udf,窗口函数
chyt 运行clickhouse
spyt 运行 apache spark
说明
ytsaurus 目前从介绍以及官方的一些使用数据看还是比较吸引人的,值得研究学习下,同时官方文档也是比较全的
参考资料
https://github.com/ytsaurus/ytsaurus
https://ytsaurus.tech/
https://medium.com/yandex/ytsaurus-exabyte-scale-storage-and-processing-system-is-now-open-source-42e7f5fa5fc6
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· 全程不用写代码,我用AI程序员写了一个飞机大战
· DeepSeek 开源周回顾「GitHub 热点速览」
· 记一次.NET内存居高不下排查解决与启示
· MongoDB 8.0这个新功能碉堡了,比商业数据库还牛
· .NET10 - 预览版1新功能体验(一)
2022-03-21 使用odbc 提升cube.js 查询dremio 的性能
2017-03-21 caddy server 几个常用插件
2016-03-21 nginx windows 版 创建windows 服务