北鲲云超算平台如何为生命科学研究提供数据归档与存储服务?
在人工智能、计算机、大数据等技术飞快演进的大背景下,生命科学如何与它们互相交叉、融合、渗透乃至赋能,实现乘法效应甚至指数级效应,已成为全球科学界新的风口趋势。这也是北鲲云超算平台自成立以来始终在尝试做的事情。
作为生命科学的基础学科,从全球来看,DNA测序仪每年能产生大约150亿兆(PB)字节的数据(这一数据仍在迅速增长);而1PB就是1000个TB。要想把150亿兆字节的数据刻录到大容量DVD中,刻出来的光盘摞起来能达到2.5英里高,而这仅仅是原始数据。显微图片等表型信息的实验数据甚至会成倍增加存储的问题。面对有数百亿兆之多的数据,同时又要确保这些数据的快速共享,当然需要借助云计算平台。
毋庸置疑的是,如今生物学根本离不开计算机的帮助。事实上,“生物信息学”这个全新的科学学科已悄然兴起,用于分类、研究不断增长的生物学新信息。同样是在云计算的加持之下谷歌旗下的DeepMind公司让蛋白质结构预测取得了突破性进展,其研发的AlphaFold2,可以说是蛋白质结构预测的里程碑。蛋白质是生命的物质基础,每个蛋白质的氨基酸链扭曲、折叠、缠绕成复杂的结构。科学界采用了多种技术手段破解这种结构,都需要花很长的时间,甚至难以完成。但通过云计算能够大大加速蛋白质的结构预测进程。值得一提的是,北鲲云超算平台已经预安装了AlphaFold2,用户在登陆后可以直接使用该软件。
除了能够加速科研进程之外,云计算的另一个优势在于数据归档,这也是研究人员在跟北鲲云超算平台签署服务器租约最关心的问题。如果北鲲云超算SaaS平台因为某种原因关闭,或者研究人员决定换成不同的系统,北鲲云超算SaaS平台也会明确给出提取数据的路径。北鲲云超算平台提供的服务允许将所有的东西都刻在光盘上并且把一大摞硬盘给用户,用户不用担心‘嫁给’云一辈子。
然而对于通用的存储来说,云可以提供意外事故和本地灾害的保护,因为云服务一般会在多个地点复制数据。“可能其中一个数据中心被流星击中,另一个中心又有火山爆发,但是你还是能够得到另一个数据备份。这就是云平台的优势。