基因测序中的云计算解密

云计算为什么可以基因测序中持续发展落地?

 

随着基因工程在疾病风险、祖源分析等一些新应用新场景的出现,催生了不同的算力需求,对计算架构也提出更高要求。生物测序可以说是信息技术和生物技术紧密结合的行业,需要借助高性能计算来处理海量爆炸的数据资源!

基因测序通常会面临以下三个痛点:

1 基因测序业务一般分为项目型,有波峰波谷的区别,为了足够的资源支撑的同时不造成资源浪费,会选择云计算弹性使用的资源。

2 复杂基因组在各个测序分析的阶段需要借助不同规格的计算资源,线下计算集群往往无法适应快速的扩缩容。

3 目前的三代测序已成为重要的技术趋势,云计算能够更好的满足其对算力方面的要求。

 

上述所说的是算力方面,而实际上,基因测序企业更偏爱云计算平台,这就和传输/存储拖不了干系:

 

1 基因测序最高每天甚至有十几个T的基因下机数据,海量的数据传输需求和存储对传输带宽要求极高。

2 行业数据存储包括规划、分配、回收、归档等过程,运维成本极高。

3 基因测序中涉及到相当多的敏感数据,对于安全的要求极高。

 

北鲲云为基因测序行业用户提供高性能计算完整解决方案,搭建NGS数字化全流程平台,帮助用户降低计算资源成本,解决IT/运维问题,提高研发效率。对于基因测序的各大痛点,都有招数一一化解。

 

最近北鲲云赞助天津大学生命科学学院团队TJUSLS_China参赛并斩获金奖(Gold Medal)。

 

今年 TJUSLS_China 团队的研究对象是 Proteinase K(蛋白酶 K)。目前商业化的 Proteinase K 产品大都面临钙离子依赖性及不耐热的问题。 TJUSLS_China 团队2022年的项目利用合成生物学的方法设计生产出了既不依赖钙离子,常温下热稳定性也显著增强的 Proteinase K 突变体(Capsid ripper)。 以上项目研究成果得到了大赛评委及专家的高度评价,特别是对队伍提出的新颖蛋白质设计策略予以了充分肯定。

在项目的建模部分,团队需要使用 AlphaFold 2和GROMACS两款软件,此过程既需要 GPU 算力,也需要 CPU 算力。算力不足,服务器连接困难、难以并行运算等多个问题导致项目进度缓慢。

项目实现过程中,北鲲云为团队提供了有力的平台支持和充足的算力支持,北鲲云基于通用、便捷、智能的作业调度系统和公共服务,为上层应用提供技术保障,也团队提供了强大HPC云端算力。两者融合,共同发力打造一站式高性能计算平台,提供稳定、高效、安全的计算服务,为团队取得好成绩奠定了坚实基础。

团队在计算过程中,无需改变平时使用习惯,软件开箱即用,在SSH连接方式中通过Slurm命令即可轻松提交任务。极易上手的平台操作大大提高工作效率。在算力资源方面,主要选择了32核Intel Xeon(Cascade Lake) Platinum 8269/8269CY,在保证运算速度的同时大大的降低了成本。在时间紧张时,最高选择了192核Intel Xeon Platinum (Cooper Lake) 8369 3.3 GHz/3.8 GHz进行运算,极大的缩短了计算时间。

更多与基因测序相关的信息,欢迎联系我们!

 

posted @ 2022-11-28 15:47  北鲲云  阅读(118)  评论(0编辑  收藏  举报