【翻译】建模问题及解决方案:由生物教材构建分类(Modeling Issues and Solutions:Building a Taxonomy from a Biology Textbook)
1 引言
我们在Halo项目中的任务之一是根据进阶生物学教材的词汇表术语创建分类。Halo项目的目标是构建能够回答并解决广泛的科学学科中的新奇和高级问题的推理系统。为了实现这一目标,分类结果将被用作将生物教材中的段落翻译为推理系统所能操作的逻辑公式的基础。
为了辅助展开我们的工作,我们输入2400个来自教材电子词汇表的词汇表术语和定义字符串到OWL格式的Collaborative Protege中作为类和常量字符串。我们的小组由生物学家和KR专家组成。我们采取了一种迭代的方式。小组中的生物学家进行初始的分类,限定subclass-of关系,并且加入他们所认为合适的其他类。与此同时,工作组会议中会确定并讨论建模问题。这些问题及解决方法将按下面的步骤实现。
2 结果
2.1 实体/角色二分法
初始时,我们小组的生物学家基于结构和功能为有机模块(organic-Molecule)编写类(见图1)。
例如,蛋白质(protein)和类固醇(steroid)是根据它们的化学组成进行定义。与此相反,激素(hormone)则是根据它们执行的功能被定义,这样类固醇和激素之间就会有重叠,如一些激素是类固醇而另一些激素是蛋白质。
作为一个解决方法,我们把激素定义为某些化学元素所扮演的角色。然而,类固醇-激素在分类学中仍然是一个类,它代表了生物学家直观思考所得的一个有用的类(见图2和3)。
2.2 林奈式生物分类
我们小组中的生物学家想要把不同领域分类都归到领域(Kingdom)这一类下(见图4)。
然而领域有5个实例(基于美国的教科书)。
作为一个解决方法,我们对有机物采用林奈分类学,并且用常见的英语名称来简化(见图5)。例如“Cow is an Animal”比“Cow is an Animalia”更简洁明白。
作为潜在的改进,我们可以加入拉丁文命名的类来作为它们分类单元的实例(见图6)。例如,Animalia是Kingdom的一个实例,而Chordata是Phylum的一个实例。还有一个方法(此处没有给出图示),我们可以把分类单元作为元类。例如,Chordate是元类Phylum的一个实例,而Animal是元类Kingdom的一个实例。
2.3 实体/过程二分法
我们小组的生物学家想要把Light-Microscope归类到子类Technology之下(见图7)。
他们还想把Technology归类到子类Inquiry之下。这两次使用术语Technology有着两种不同的含义。Technology的词汇表定义是“为某种特定目的而应用科学知识,通常涉及工业或商业,也包括在基础研究中的使用”。
我们对该问题的解决方法是重构分类(见图8和9)。
我们注意到词汇表中的一些术语是一词多义的。包括“;also”在内的定义就是说明这种情况的一个很好的例子。例如,野生类型(Wild Type)是“An individual with the phenotype most commonly observed in natural populations; also refers to the phenotype itself.”
2.4 对研究领域的分类
我们初步倾向于将研究领域(如Genetics,Anatomy,Ecology)归类于Inquiry之下。研究领域是一个复杂的社会实体,涉及研究活动和教育机构,教育机构又由部门、成员、项目和课程组成。然而,对每个研究领域的术语定义都以“the scientific study of”为前缀。在当前情况下,把它们归类于Inquiry之下是合适的。
2.5 子类/子过程二分法
我们初步倾向于使用层次来组织子部分或子过程(见图10)。例如,Telophase是Mitosis的一个子类,而不是一个子过程。
我们解决此问题的方法是无论什么时候发现子部分或子过程,我们就把它们移动到适当的位置(见图11)。在工作组会议中,我们对如何使用子类关系增强了一致的认识。
3 结论
开始,我们小组的生物学家依赖于先验知识和定义来组织类的层次,而类被当做是有组织的“桶”。我们迭代地应用本体的原则来确认建模问题,并为分类构建过程提供基础。
经过几次工作组会议之后,生物学家对建模问题的这些类型有更好的认知,因此在后续的分类构建过程中有更好的工作效率。这些经验教训和分类的结果都可以帮助AURA更好地回答“What is”这样的问题。除此之外,这些经验教训还可以应用于其他本体,虽然还要考虑它使用什么样的形式化方法(如处理元类)。