【华为云技术分享】华为云联合浙江大学构建新冠科研开放知识图谱
随着疫情的发展,研究人员迫切需要能够系统梳理和整合新型冠状病毒的相关知识,加速对新冠病毒的机制研究和抗病毒药物研发。例如,新冠病毒所属的病毒族系是什么,新冠病毒的重要属性有哪些,抗病毒药物与病毒靶点之间的关系是什么,以及病毒亲缘关系等。这些知识存在于众多的知识库或者最新发表的文献中,很难被科研人员系统的检索和使用。
为了解决这一问题,华为云医疗智能体团队、华为云语音语义创新Lab联合浙江大学计算机学院陈华钧教授组成联合团队,在浙江大学先期构建的第一版病毒分类图谱的基础上,又添加了三个新的科研知识图谱,全方位地涵盖了新冠病毒的基础属性,为科研人员针对病毒的研究和抗病毒药物研发提供了更强力的工具。
第一版本新冠科研图谱从病毒的生物学分类角度出发,以NCBI美国生物信息中心 Taxonomy板块下的数据为基础,构建了一个病毒的族系网络:病毒分类图谱。该图谱具有较大的规模,其中实例的数量达20万以上,三元组的数量更是达到了190万+。但是其在分类及族系关系以外未引入其他信息,具有一定的局限。
因此第二版中,联合团队通过梳理病毒、基因、蛋白、药物等相关概念,围绕新型冠状病毒、抗病毒药物等展开工作。从病毒的基因,蛋白,宿主以及核苷酸序列等相关信息出发,基于NCBI数据库中新冠病毒(SARS-CoV-2,原名称:2019-nCoV)相关数据,构建了新冠基本信息图谱v1.0。从抗病毒药物、Human Protein、Virus Protein、宿主等信息出发,基于DrugBank等数据库的数据,构建了抗病毒药物图谱v1.0。最后,考虑到病毒流行学是重要的科研方向,联合团队以Gisaid全球流感数据库所提供的实时新冠病毒sequence数据为基础,结合nextstrain对于新冠病毒基因组流行病学的分析及相关算法, 整理出了一个短期病毒突变的连接网络——病毒亲缘关系图谱v1.0,其中包含了地理,时间,变异度,突变的基因蛋白等信息,为后续的相关研究(病毒溯源)及图谱的融合提供支撑。
新冠基本信息图谱 v1.0
express表示SARS-CoV-2与其表达基因间的关系,例如SARS-CoV-2表达membrane protein gene (M) /Envelope protein gene(E)/ Nucleoprotein gene (N)等类型的基因。
translate表示基因与蛋白间的翻译关系,例如SARS-CoV-2的membrane protein gene (M)可翻译出membrane protein。
produce关系表示SARS-CoV-2可产生对应的蛋白。
host用来表示SARS-CoV-2和宿主的关系,目前图谱中的宿主实体主要是human和vertebrates。
新冠基本信息图谱示意图
抗病毒药物图谱 v1.0
effect关系用于表示抗病毒药物对于病毒有一定效果,例如Ritonavir和Abacavir对Human immunodeficiency virus 1有抗病毒效果,通过本关系可查看抗病毒药物和对应病毒间的联系。
produce关系可用于挖掘病毒与其所表达蛋白间的express关系,并可进一步挖掘不同病毒与同一类型蛋白间的关系,进而发现两个病毒间的间接关系,再通过某病毒与某抗病毒药物间关系,又可发现某抗病毒药物和另一病毒的间接关系,可以帮助发现对于某一类型病毒蛋白可能有作用的更多药物。
interaction和binding关系可以用于发现病毒蛋白与宿主蛋白间的相互作用,比如HIV1的NP(nucleoprotein)可binding在Human的HYOU1;之后可再补充某些药物和HYOU1间的target关系,进而可以研究这些药物和HIV1的NP(nucleoprotein)间的作用。
在属性方面,联合团队从DrugBank挖掘了以下信息(商品名、化学式,分子重量,indication等),作为drug实体的属性,使得研究者可以更直观的了解某drug的一些重要信息。之后团队会进一步完善补充更多关键实体的重要信息。
抗病毒药物图谱示意图
病毒亲缘关系图谱 v1.0
知识图谱中有Strain毒株,Branch分支,Country国家,State区域和City城市这些实体类型,其中地理位置与Strain毒株的连接通过from_country, from_division和from_location来标识。Country,State,City互相连接构成网络。
对于Strain毒株的属性,包括了AA变异,核苷酸突变,与上一分支的差异率等等信息,展示在图中的表格中。其中变异数据和差异率数据都是相对mutate_from_branch指示的Branch结点来说的,而Branch也相对上层的Branch,因此最终的Strain突变应当是整个树目录突变的总和。
病毒亲缘关系图谱示意图
新冠科研图谱的潜在应用
新冠科研图谱的潜在应用如下: 1. 预测新病毒的生物学分类 2. 预测病毒变异性 3. 预测病毒热稳定性 4. 预测病毒的易感群体 5. 预测病毒的致病部位 6. 预测病毒可导致的症状 7. 潜在治疗的药物,或者老药新用 8. 预测病毒的传播途径 9. 预测可能与病毒蛋白相互作用的蛋白,发现新的蛋白靶点 10. 针对新的蛋白靶点,进行药物开发 11. 病毒溯源,病毒变异的分析与预测。
知识图谱的构建通常是一个漫长且费时费力的过程,在此次新冠科研图谱的构建中,联合团队利用华为云知识图谱服务进行了端到端的知识图谱构建,并且利用华为云ModelArts一站式AI开发与管理平台智能的从文献中抽取新的实体关系,在短短一周的时间里就构建出了内容丰富的新冠科研图谱,极大地提升了效率和准确性,接下来联合团队会将更多从最新的文献中抽取的知识更新到知识图谱中。