[Ray] 00 - Easy Distributed Computing

Ref: Easy Distributed Computing with Ray + Python

Ref: https://github.com/ray-project/ray 

 

GitHub主页 

Ray provides a simple, universal API for building distributed applications.

Ray is packaged with the following libraries for accelerating machine learning workloads:

    • Tune: Scalable Hyperparameter Tuning
    • RLlib: Scalable Reinforcement Learning
    • RaySGD: Distributed Training Wrappers
    • Ray Serve: Scalable and Programmable Serving

There are also many community integrations with Ray, including DaskMARSModinHorovodHugging FaceScikit-learn, and others. Check out the full list of Ray distributed libraries here.

 

复制代码
$ pip install ray
$ pip install
"ray[tune]" pip install tensorflow   # or tensorflow-gpu pip install "ray[rllib]"   # also recommended: ray[debug] $ pip install scikit-learn $ pip install "ray[serve]"
复制代码

 

 

Ref: Distributed Computing is the Future of Computing with Robert Nishihara

 

 

为Pandas加速,Dask, Ray, Modin, Vaex, RAPIDS哪个好呢?【写得比较走心】

  • 选项

Dask:low-level调度程序和高级别的部分Pandas替换,专门用于在计算群集上运行代码。

Ray:一个用于在处理器或集群之间并行化Python代码的底层框架。

Modin:由Dask或Ray驱动的Pandas的直接替代品。

Vaex:Pandas的部分替代品,使用懒惰的评估和内存映射来允许开发人员在标准计算机上处理大型数据集。

RAPIDS:在GPU上运行的数据科学库的集合,其中包括cuDF(Pandas的部分替代品)。

  • 选择

你可能希望按以下顺序进行尝试:

Modin,以Ray为后端。 通过安装这些,你可能会发现仅更改一行(将“ pandas as pd”导入为“ import modin.pandas as pd”)会有很大的好处。 与其他工具不同,Modin旨在与Pandas完全兼容。

Dask,一个更大,因此更复杂的项目。 但是,Dask还提供了Dask.dataframe,这是一个类似于Pandas的更高级别的库,可以帮助你处理核心数据集。

Vaex,旨在帮助你在标准笔记本电脑上处理大数据。 它的Pandas替代品涵盖了某些Pandas API,但更侧重于探索和可视化。

RAPIDS,如果你有权限访问NVIDIA图形卡。

 

 

以下是Python数据争用格局的概述:

 

 

 

 

 

posted @   郝壹贰叁  阅读(182)  评论(0编辑  收藏  举报
编辑推荐:
· AI与.NET技术实操系列:向量存储与相似性搜索在 .NET 中的实现
· 基于Microsoft.Extensions.AI核心库实现RAG应用
· Linux系列:如何用heaptrack跟踪.NET程序的非托管内存泄露
· 开发者必知的日志记录最佳实践
· SQL Server 2025 AI相关能力初探
阅读排行:
· 震惊!C++程序真的从main开始吗?99%的程序员都答错了
· 【硬核科普】Trae如何「偷看」你的代码?零基础破解AI编程运行原理
· 单元测试从入门到精通
· 上周热点回顾(3.3-3.9)
· winform 绘制太阳,地球,月球 运作规律
点击右上角即可分享
微信分享提示