2023.27 华为云盘古大模型

2020 年 11 月,华为盘古大模型在华为云内部立项成功,完成了与合作伙伴、高校的合作搭建。2021 年,华为盘古大模型也正式对外公布,包括 NLP(自然语言处理)、CV(机器视觉)和科学计算大模型;后续又发布了矿山、药物分子、气象、海浪等行业大模型,深入金融、制造、政务、煤矿、铁路等 10 多个行业,支撑 400 多个业务场景的 AI 应用落地。
2023年7月7日下午,在华为开发者大会2023(Cloud)上,盘古大模型3.0正式发布,“不做诗、只做事”的定位和宣传很好,在当各大厂商的大模型在聊天、画画、作诗对标ChatGPT时,华为从自身优势出发,发布了一个完全面向行业的大模型,严格说是模型合集。与 ChatGPT 为代表的大模型不同,华为盘古大模型的用户群体主要面向 To B/G 政务端客户,这也就意味着盘古大模型的技术模型要足够大,技术能力要足够强,技术风险要足够低,技术应用要足够广。
发布会上介绍,盘古大模型3.0包括“5+N+X”三层架构:
L0层包括自然语言、视觉、多模态、预测、科学计算五个基础大模型,提供满足行业场景中的多种技能需求。盘古3.0为客户提供100亿参数、380亿参数、710参数和1000亿参数的系列化基础大模型,匹配客户不同场景、不同时延、不同响应速度的行业多样化需求。同时提供全新能力集,包括NLP大模型的知识问答、文案生成、代码生成,以及多模态大模型的图像生成、图像理解等能力,都可以供客户和伙伴企业直接调用。
L1层是N个行业大模型,华为云既可以提供使用行业公开数据训练的行业通用大模型,包括政务,金融,制造,矿山,气象等大模型;也可以基于行业客户的自有数据,在盘古大模型的L0和L1层上,为客户训练自己的专有大模型。
L2层为客户提供了更多细化场景的模型,更加专注于政务热线、网点助手、先导药物筛选、传送带异物检测、台风路径预测等具体行业应用或特定业务场景,为客户提供“开箱即用”的模型服务。
盘古大模型采用完全分层解耦设计,可以快速适配、快速满足行业的多变需求。客户可以单独升级基础模型,也可以单独升级能力集。华为云还为客户提供了大模型行业开发套件,通过对客户自有数据的二次训练,客户就可以拥有自己的专属行业大模型。同时,根据客户不同的数据安全与合规诉求,盘古大模型还提供了公用云、大模型云专区、混合云多样化的部署形态。
由于大家都知道原因,华为拿不到最先进的芯片和软件,只能自己更生,在最底层构建了以鲲鹏和昇腾为基础的AI算力云平台,以及异构计算架构CANN、全场景AI框架昇思MindSpore,AI开发生产线ModelArts等,为大模型开发和运行提供分布式并行加速,算子和编译优化、集群级通信优化等关键能力。
作为应用案例,盘古气象大模型最近登上Nature,是首个精度超过传统数值预报方法的AI预测模型,同时预测速度也有大幅提升。原来预测一个台风未来10天的路径,需要在3000台服务器的高性能计算机集群上花费5小时进行仿真。现在基于预训练的盘古气象大模型,通过AI推理的方式,研究者只需单台服务器上单卡配置,10秒内就可以获得更精确的预测结果。盘古药物分子大模型助力西安交通大学第一附属医院发现全球40年来首个新靶点、新类别的抗生素,并将先导药物研发周期缩短至1个月、研发成本降低70%。
看华为云盘古大模型的发布会宣传定位还是不错的,未来是否能解决传统 AI 作坊式开发模式下不能解决的 AI 规模化、产业化难题还有待观察。如何用大模型给各行业赋能而不是蹭热点概念,如何真正在企业能担负起成本的情况下帮他们解决问题,估计还有很长的路要走。

posted on 2023-07-09 10:56  时间朋友  阅读(126)  评论(0编辑  收藏  举报

导航