基因组计算加速平台调研


最近调研,总结了一些公司推出的基因组计算加速产品和方案。简单罗列下几个平台,主要针对GATK流程加速。

腾讯云:双螺旋

2017年发布,一体化的数据管理PaaS平台,可进行传、存、算、管等工作。

加速原理:FPGA极光异构系统。

30x WGS运行时间:2.8h。

http://www.baiemai.com/product/helix.htm#featuresV2

https://cloud.tencent.com/developer/article/1023419

华为云: Falcon

2018年发布。

加速原理:FPGA

30x WGS运行时间:5~6h。

https://zhuanlan.zhihu.com/p/38967028

华大智造: MegaBOLT

2018年发布,web端设计,在网页上提交任务并查看结果报告。

加速原理:与Intel合作,借助 CPU+FPGA 异构计算架构与深度算法优化的组合。

30x WGS运行时间:2h。

https://www.mgi-tech.com/resource/webinars_info/23/

https://www.intel.cn/content/www/cn/zh/high-performance-computing/accelerating-genetic-decoding.html

Illumina: DRAGEN

2018年Illumina收购的NGS数据分析加速解决方案供应商Edico Genome,继承了DRAGEN。已部署AWS。

DRAGEN™ Bio-IT平台加速原理:FPGA+软件算法。

运行模式:本地、云端、混合。

https://www.illumina.com.cn/products/by-type/informatics-products/dragen-bio-it-platform.html

NVIDIA: Clara Parabricks

英伟达推出的整套 Clara Parabricks Pipeline 分析软件是一种加速计算框架,支持使用新一代测序 (NGS) 数据的人口、癌症和 RNA 应用。Parabricks Pipelines 是建立在 NVIDIA 的 GPU 架构之上,支持一系列基因分析工具来处理从测序读取到变异调用的NGS 数据。

加速原理:GPU。

30x WGS运行时间:<1h。

https://www.nvidia.cn/clara/genomics/

https://www.jiemian.com/article/2579993.html

https://docs.nvidia.com/clara/parabricks/v3.5/text/software_overview.html

Sentieon

Sentieon 致力于解决生物信息数据分析中的速度与准确度瓶颈,通过算法的深度优化和企业级的软件工程,大幅度提升NGS数据处理的效率、准确度和可靠性。与GATK对应的流程DNAseq,已部署在阿里云和AWS等。

加速原理:X86和arm架构计算,软件优化(C++重写GATK)。

https://www.insvast.com/sentieon

聚道科技:GeneDock HG

加速主要利用了Sentieon。

https://www.genedock.com/article/docs/seqflow/developer/workflow/public-workflow/hg-germline-wgs/HG%20Germline%20WGS/

https://www.36kr.com/p/1721398804481

极道科技: Achelous

2016年发起,分布式调度器和执行引擎,支持超大规模科学计算和生信分析。支持GPU,FPGA等专业硬件加速。可部署私有云或AWS等公有云。

http://www.achelous.org/

赛乐基因:BaseNumber

BaseNumber DNA测序数据分析系统通过执行基于“CUDA+GPU”计算环境开发的高并行算法,将DNA测序数据二级分析速度提升百倍,内置多种分析流程。已部署阿里云。

加速原理:CPU+GPU异构计算。

30x WGS运行时间:12min。

http://www.sailegene.com.cn/product.html

https://www.36kr.com/p/1724698247169

人和未来:GTX.CAT

GTX.CAT是一组计算高效、性能卓越、与工业标准高度一致的生物信息二级分析软件工具集,集成了DNA序列比对、BAM预处理、BAM数据质控、变异检测等功能模块,完全遵循行业接受度最高的BWA-GATK最佳实践流程,提供了一套基因组数据分析全流程的完整解决方案。已部署阿里云。

加速原理:之前推的是FPGA加速,现在推CPU加速。

30x WGS运行时间:30min。

http://www.genetalks.com/gtxlab.html#clin-gtx-heal4

https://www.sohu.com/a/544692299_121349423

MGI+Sentieon:Zieon

2021年华大智造与Sentieon合作推出的高通量测序数据分析一体机Zieon。双方团队详细讨论并测试了华大智造MegaBOLT和Sentieon软件模块的性能,采用合适的模块组合推出了Zieon数据分析一体机。数据显示,Zieon在准确率提升的同时可加速46倍左右。

加速原理:上游比对FPGA加速,下游CPU,软件优化模块及多任务调度系统。

30x WGS运行时间:52min。

准确性:SNP超过99.9%,Indel超过99.5%。

https://www.seqchina.cn/14444.html

以上大部分平台只对二代测序数据甚至仅人类的GATK 加速,对于三代数据,鲜有专门的解决方案。个人认为,除标准的GATK流程外,目前最认可的产品应该是Sentieon,在提速的同时,保证和GATK标准结果一致。

大部分云平台并没有提供自己独特的优化算法,只是借硬件加速。几年前FPGA很流行,如今好像不行了,是什么原因呢?我不懂,也许是错觉。

posted @ 2022-05-19 23:00  生物信息与育种  阅读(923)  评论(1编辑  收藏  举报