国产深度学习框架 OneFlow 是否靠谱?

OneFlow框架的设计目标是实现:一个使用多机多卡就像使用单机单卡一样容易的深度学习框架。


可以说,这是国内最早的深度学习框架之一,也是至今还活着的公司中开发支持力度最低的,也是最缺少技术支持、用户支持、资金支持的,就这样的产品至今还活着就不得不佩服清华校友的能力强大,毕竟是张钹院士的学生。


虽然说这个产品很不好用,但是感觉这也不算是一个泛泛之辈,因为这个框架的设计就和其他的框架不同,其他的框架都是原生支持单机,后期扩展支持分布式,这个框架确是设计之初就原生支持分布式,可以说是一边开发一边支持分布式,可以说是另类中的另类了。


Oneflow框架难以安装,难以运行

可能是这个公司的经济条件有限,因此这个框架只有通过公司官网下载安装或GitHub下载安装两种方式,既不支持conda也不支持pip,可以说是极难安装使用的,并且你需要手动配置相关环境,比如cuda和cudnn,不过万幸的是这个框架还提供docker镜像安装,不过这下载网速也是一言难尽。


官方给出的oneflow的应用场景:

image


可以这么理解,使用oneflow的场景必须是要进行训练,然后呢又必须是分布式场景,而且应该是中等水平的集群,比如这里给的400张显卡的情况,但是呢实际业务需要训练的量又是现有资源无法支撑的,并且短时间内无法扩展集群,可以说是虽然有400张显卡了,但是依旧不够用,并且业务要求这个计算必须在一定时间内完成,无法无限后延。而且还有一点,那就是模型要求必须简单,因为这个框架还不是很成熟,各种算子可能并不支持,所以只有常见的模型和算子才能很好运行。

综合具备上面的这些条件后,就可以考虑使用oneflow了,因为oneflow的分布式下的训练速度经过测试要比其他框架要快。不过,不得不说这个oneflow框架需要满足这些条件才适用,也确实有些强人所难了。你说这东西必须是实际业务的生产环境,还必须是大集群,而且对计算性能很敏感,并且模型要简单,这时候才适合用,按照这个要求估计也确实没有多少场景适合了,毕竟有这400张显卡的地方估计也不差再加100张卡,而且这种应用场合应该是业务比较固定的,那为啥不采用租个集群呢,搞不懂这个奇葩要求。

在我看来,这个框架要想走下去,就得丰富其功能,加入更多的算子,并且建立社区,增加支持的项目,并且对小集群的使用环境下也要具有明显的性能优势才可以。毕竟曾经的几十个深度学习框架最后也就剩下这几家还活着,如果真的搞不定,这个活了6、7年的框架也是难逃关门的厄运的,这里不得不说搞这东西真的需要有足够的资金支持的,不然为啥只有Google、Facebook、百度、华为这几个公司最后还这么坚挺呢。

或许,这个OneFlow适合成熟业务从pytorch转换过来进行训练。



相关:

如何评价最近一流科技开源的深度学习框架 OneFlow?

王慧文收购国产AI框架OneFlow,为中国版ChatGPT疯狂抢人抢基建

posted on   Angry_Panda  阅读(59)  评论(0编辑  收藏  举报

相关博文:
阅读排行:
· winform 绘制太阳,地球,月球 运作规律
· 震惊!C++程序真的从main开始吗?99%的程序员都答错了
· AI与.NET技术实操系列(五):向量存储与相似性搜索在 .NET 中的实现
· 超详细:普通电脑也行Windows部署deepseek R1训练数据并当服务器共享给他人
· 【硬核科普】Trae如何「偷看」你的代码?零基础破解AI编程运行原理
历史上的今天:
2022-02-03 【观察网视频】 不是中国也不是社会主义,美国害怕的是别的东西
2019-02-03 Anaconda 的基本使用
2019-02-03 安装 aconda 后Linux的终端界面前部出现(base)字样
2018-02-03 对东北一小镇环境污染的思考
2017-02-03 面向对象 概念区分 多态和重载

导航

< 2025年3月 >
23 24 25 26 27 28 1
2 3 4 5 6 7 8
9 10 11 12 13 14 15
16 17 18 19 20 21 22
23 24 25 26 27 28 29
30 31 1 2 3 4 5

统计

点击右上角即可分享
微信分享提示