BioNLP概述

BioNLP概述

工具：

GENIA Tagger：GENIA Tagger是一个主要应用于生物医学文本领域的词性标注和浅层语法分析工具，GENIA Tagger在GENIA语料上的词性标记性能F-score达到98%，短语切分(chunking)性能F-score达到93%。

生物医学文献生物命名实体识别

识别实体主要包括基因、蛋白质、DNA和RNA。

评测：JNLPBA、BioCreative

生物实体命名的特点：

描述性的命名习惯：如"47 kDa sterol regulatory element binding factor"，名字较长(大约18.6%
的生物实体名包含四个以上的单词)，这样很难确定生物实体名的边界。
非标准的命名习惯：生物实体可能有多种拼写形式，如"N-acetylcysteine"、"N-acetyl-cysteine"和"NAcetylCysteine"都是指同一生物实体。功能无关的基因、蛋白质还可能出现同名的情况。生物实体名可以包含数字、希腊或拉丁文字母；可以是大小写相关的。
缩写：在生物医学文献中，缩写大量使用，也很不规范，如"Inter1eukin2"的缩写"IL2"是根据音节的得到的，而"palate"的缩写"PAL"是根据音节的得到的，再如"TCF"在不同的文章中可以是"T cell Factor"和"Tissue Culture Fluid"的缩写。
包含关系：生物实体名可以是其他生物实体名的子串，如"epidermal growth factor"和"epidermal growth factor receptor"是两个不同的生物实体。

主要方法基于词典、基于规则和基于机器学习的方法。

生物医学文献实体关系抽取

当前进行蛋白质交互关系抽取主要三种方法：

生物医学文献中的假设发现

方法：

算法：

开放发现算法(Open Discovery Algorithm)：根据用户给出的查询概念A，通过获取相关的中间概念B，再获取与B相关的概念C，从而找到以前未曾发现的A与C的关联，即A->B->C。
闭合发现算法(Closed Discovery Algorithm)：根据用户给出的查询概念A和概念C，找到把它们联系起来的中间概念B，即A->B<-C，从而对新发现的A与C的关联进行验证。

posted on 2014-09-19 16:56 robert_ai 阅读(3152) 评论(0) 收藏举报