6 个强大的可扩展计算平台 2022 版
6 个强大的可扩展计算平台 2022 版
随着数据量的增长,对可扩展计算工具的需求也在增长。幸运的是,开源社区已经推出了大量新工具来并行化代码,使用 GPU 加速计算,并为拥有大数据的团队提供更快的价值实现时间。
虽然一些团队拥有 DevOps 资源和预算来创建安全托管开源工具的基础设施,但其他团队根本没有时间、预算或资源。我们编制了一份顶级可扩展计算平台列表,这些平台提供了与企业数据安全合作的顶级托管解决方案。
1. 土星云
Saturn Cloud 是一个数据科学平台,适用于团队和个人的可扩展 Python、R 和 Julia。 Dask 和 Bodo.ai 开箱即用。
无需切换任何工具,Saturn 提供了一个灵活的环境,让数据科学家可以在云端启动高性能笔记本(Jupyter、RStudio、VS Code 等),快速使用 Dask 和 Bodo 集群、GPU,部署云资源进行扩展他们的数据科学能力,在整个项目生命周期中进行协作等等。
土星云提供了一个 自由社区 层以及直接安装在 AWS 虚拟私有云中的企业层。
2. 任意尺度
Anyscale 是 Ray 的创建者提供的完全托管的 Ray 产品。它通过消除构建和管理复杂
3. 他们将
Bodo 是一个平台,可通过自动后台并行化将您的 Python 和 SQL 数据分析代码直接投入生产,具有极高的性能和大规模扩展。
4. 盘绕
Coiled 是企业级 Dask,变得简单。 Coiled 在您的 AWS 或 GCP 账户中管理 Dask 集群,使其成为在生产中运行 Dask 的最简单、最安全的方式。
5. 数据块
Databricks 是基于 Apache Spark 的统一分析平台,通过统一数据科学、工程和业务来加速创新。借助我们在云中完全托管的 Spark 集群,您只需单击几下即可轻松配置集群。
6. 思考
构建企业级工具,用于快速、灵活地大规模数据实验。对任何规模的数据进行操作,同时继续使用熟悉的 Pandas API。由开源 Modin 和 Lux 提供支持。
概括
没有内存限制的数据科学被该领域的领导者认为是未来。上面提到的解决方案为那些希望扩展计算的人提供了一些最有效和最有前途的工具,而不会招致 DevOps 的痛苦和代价高
版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明