【翻译】生物相关的化学实体(ChEBI)本体的最近发展(Recent Developments in the ChEBI Ontology)
引言
ChEBI——生物相关的化学实体(Chemical Entities of Biological Interest)——是诸如分子、离子这些化学实体以及它们在生物领域的角色所形成的本体。到2011年4月为止,它已经包含了总共大约25,000个类。这里,我们对本体中的最新发展和变化给出报告,并对影响未来变化的现有工作给予简要概括。
1 最近变化
1.1 映射顶级本体BFO
为了遵照我们增加与生物领域其他本体互操作性的目标,ChEBI已经承担起提供对顶级本体BFO(Basic Formal Ontology)映射的任务。映射多种本体到一个常见的顶级本体之下使得我们更容易建立本体间的关联,因为它通过一个清晰的本体承诺减少了翻译中的二义性。
ChEBI映射BFO的情况在图1中有说明,并且我们提供了一个OWL文件可供下载,地址为:ftp://ftp.ebi.ac.uk/pub/databases/chebi/ontology/
1.2 “分子结构”根的重命名
ChEBI对子本体中的根术语如化学实体中定义的分子、离子等进行重命名,由“分子结构(molecular structure)”改为“化学实体(chemical entity)”。虽然原来的名字能精确地反映子本体(子本体中的实体分类是结构特征的基础)的组织原则,但它不足以达到自动推理的要求,因为它会通过is a关系的传递导致不正确的推理。例如:caffeine is a molecular structure.修改之后,我们得到正确的推理:caffeine is a chemical entity。
1.3 扩展物质层次
为了能够充分处理本体中用户要求的混合物和聚合物,ChEBI扩展了“化学物质(chemical substance)”层次。这与该本体的早前版本相比,在范围上反映出微小的变化,这是为了显式地排除聚合的化学物质。引入这一改变后便允许对我们用户强烈要求的一些实体进行充分地分类,其他合适的本体也便不复存在。
我们已经在“化学实体(chemical entity)”下创建一个新的顶级术语:化学物质(chemical substance)。我们将进一步区分纯净物和混合物。纯净物的一个例子是分子实体中的macroscopic homogeneous collection(例如水),而混合物的例子包括一个non-homogeneous collection——由至少两种不同顺序的实体组成。特别地,这允许我们正确地对消旋混合物建模,这在药物的充分表示中是十分重要的,因为药物中发现的许多活跃物质都是由消旋混合物来表达的。大部分的化学数据库都回避了表示消旋混合物的问题,或者表达不一致。
我们对消旋混合物比较青睐的本体表示方法在图2中有说明。
1.4 重构天然产物
天然产物在药物发现和新城代谢研究方面都备受关注,因为它们代表经过很多条件下自然选择出来的分子,在某些方面活性非常强。然而,对于明确构成一个天然产物的物质的核心定义却很少有显式提出的,而且又因各个组织而异。在诸多可能中有一些候选定义,从更倾向于包含的到更倾向于排除的列表如下:
1-所有可以从有机生命体中独立出来的化学物质;
2-所有的代谢物(初级和次级);
3-仅包括次级代谢物;
4-仅包括植物中的次级代谢物。
ChEBI现在在本体中包含了与两个不同地区天然产物相关的类。首先,常见的天然产物家族在化学实体本体中显式地进行分类。其次,“代谢物”被确定在角色本体中。化学实体本体中一个天然产物的例子是:
cinchonine is a heterocyclic natural product
is a natural product.
文本定义如下:“Cinchonan(奎宁,金鸡纳霜) in which a hydrogen at position 9 is substituted by hydroxy (S configuration). It occurs in the bark of most varieties of Cinchona shrubs, and is frequently used for directing chirality in asymmetric synthesis.”
由于天生的二义性,现在设计的努力包括反对类中显式地包含天然产物的名称,取而代之的是对分子进行分类,例如cinchonine显式地记为次级代谢产物。未来的工作将包括将种类作为显式内容加入代谢物的定义。
2 正在进行的工作和未来的变化
2.1 焦点集中在免疫学
现在正在进行的与La Jolla过敏反应和免疫学机构(La Jolla Institute for Allergy and Immunology,LIAI)的大规模合作将注意力集中在为免疫学相关的化合物做注释,例如用作抗原和免疫原的那些。ChEBI迄今已对超过1,000个这样的化合物进行了注释。
2.2 关系定义和再评估
ChEBI正在进行一个大型的对所使用关系的再评估。这些关系要尽可能保持它们与RO的一致性,并且为特定化学关系提供形式化定义。作为该过程的一部分,ChEBI将引入RO关系如disjoint from等。如果被证明不利于完整的逻辑定义,ChEBI还可能反对某种特定化学关系如has parent hydride。
2.3 解开角色(Disentangling Role)和化学实体
在2009年之前,ChEBI中过多的使用了is a关系,既用来连接分子实体与化学类,又确定了化学实体在各种上下文中所扮演的角色。为了实现这一点,我们还引入has role关系来用于连接分子实体与角色,例如,分子实体acetylsalicylic acid (CHEBI:15365) has role non-narcotic analgesic (CHEBI:35481)。初始的理顺过程使用编程来实现,接下来需要一系列的手工过程来清理发生错误的一些例子,例如当化学实体缺少结构时或者仅被分类到一个role parent。现在在进行的努力是为了完全定义类,既保证它的结构又保证它基于角色的特征,例如实体tricyclic antidepressant (CHEBI:36809)被定义为is a organic tricyclic compound并且has role antidepressant。