[Ray] 00 - Easy Distributed Computing
Ref: Easy Distributed Computing with Ray + Python
Ref: https://github.com/ray-project/ray
GitHub主页
Ray provides a simple, universal API for building distributed applications.
Ray is packaged with the following libraries for accelerating machine learning workloads:
There are also many community integrations with Ray, including Dask, MARS, Modin, Horovod, Hugging Face, Scikit-learn, and others. Check out the full list of Ray distributed libraries here.
$ pip install ray
$ pip install "ray[tune]" pip install tensorflow # or tensorflow-gpu pip install "ray[rllib]" # also recommended: ray[debug] $ pip install scikit-learn $ pip install "ray[serve]"
Ref: Distributed Computing is the Future of Computing with Robert Nishihara
为Pandas加速,Dask, Ray, Modin, Vaex, RAPIDS哪个好呢?【写得比较走心】
-
选项
Dask:low-level调度程序和高级别的部分Pandas替换,专门用于在计算群集上运行代码。
Ray:一个用于在处理器或集群之间并行化Python代码的底层框架。
Modin:由Dask或Ray驱动的Pandas的直接替代品。
Vaex:Pandas的部分替代品,使用懒惰的评估和内存映射来允许开发人员在标准计算机上处理大型数据集。
RAPIDS:在GPU上运行的数据科学库的集合,其中包括cuDF(Pandas的部分替代品)。
-
选择
你可能希望按以下顺序进行尝试:
Modin,以Ray为后端。 通过安装这些,你可能会发现仅更改一行(将“ pandas as pd”导入为“ import modin.pandas as pd”)会有很大的好处。 与其他工具不同,Modin旨在与Pandas完全兼容。
Dask,一个更大,因此更复杂的项目。 但是,Dask还提供了Dask.dataframe,这是一个类似于Pandas的更高级别的库,可以帮助你处理核心数据集。
Vaex,旨在帮助你在标准笔记本电脑上处理大数据。 它的Pandas替代品涵盖了某些Pandas API,但更侧重于探索和可视化。
RAPIDS,如果你有权限访问NVIDIA图形卡。
以下是Python数据争用格局的概述:
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· AI与.NET技术实操系列:向量存储与相似性搜索在 .NET 中的实现
· 基于Microsoft.Extensions.AI核心库实现RAG应用
· Linux系列:如何用heaptrack跟踪.NET程序的非托管内存泄露
· 开发者必知的日志记录最佳实践
· SQL Server 2025 AI相关能力初探
· 震惊!C++程序真的从main开始吗?99%的程序员都答错了
· 【硬核科普】Trae如何「偷看」你的代码?零基础破解AI编程运行原理
· 单元测试从入门到精通
· 上周热点回顾(3.3-3.9)
· winform 绘制太阳,地球,月球 运作规律