BioNLP概述
BioNLP概述
工具:
GENIA Tagger:GENIA Tagger是一个主要应用于生物医学文本领域的词性标注和浅层语法分析工具,GENIA Tagger在GENIA语料上的词性标记性能F-score达到98%,短语切分(chunking)性能F-score达到93%。
生物医学文献生物命名实体识别
识别实体主要包括基因、蛋白质、DNA和RNA。
评测:JNLPBA、BioCreative
生物实体命名的特点:
-
描述性的命名习惯:如"47 kDa sterol regulatory element binding factor",名字较长(大约18.6%
-
的生物实体名包含四个以上的单词),这样很难确定生物实体名的边界。
-
非标准的命名习惯:生物实体可能有多种拼写形式,如"N-acetylcysteine"、"N-acetyl-cysteine"和"NAcetylCysteine"都是指同一生物实体。功能无关的基因、蛋白质还可能出现同名的情况。生物实体名可以包含数字、希腊或拉丁文字母;可以是大小写相关的。
-
缩写:在生物医学文献中,缩写大量使用,也很不规范,如"Inter1eukin2"的缩写"IL2"是根据音节的得到的,而"palate"的缩写"PAL"是根据音节的得到的,再如"TCF"在不同的文章中可以是"T cell Factor"和"Tissue Culture Fluid"的缩写。
-
包含关系:生物实体名可以是其他生物实体名的子串,如"epidermal growth factor"和"epidermal growth factor receptor"是两个不同的生物实体。
主要方法基于词典、基于规则和基于机器学习的方法。
-
基于词典:在GENIA预料集上75.6% 。 2005年
-
基于规则:利用词性特征、词性分析、语法分析,在medline上面67%左右。
-
基于机器学习:主要有HMM,SVM,最大熵马尔科夫模型(MEMM),CRFs。其中最具优势的是CRFs,CRFs只使用很少特征就可以到70%左右。
生物医学文献实体关系抽取
当前进行蛋白质交互关系抽取主要三种方法:
-
基于自然语言处理的系统:浅层分析和深层分析
-
基于模式匹配的系统:根据预先定义好的模式和匹配规则将标注好词性的序列与结构信息进行匹配。
-
基于机器学习和统计的方法
生物医学文献中的假设发现
方法:
-
从相关MEDLINE记录的自由文本(freetext,即题目和摘要)中,通过自然语言处理技术提取其中的概念作为相关概念。
-
使用基于医学主题词MesH(Medical subject Headings)的相关概念获取方法。
算法:
-
开放发现算法(Open Discovery Algorithm):根据用户给出的查询概念A,通过获取相关的中间概念B,再获取与B相关的概念C,从而找到以前未曾发现的A与C的关联,即A->B->C。
-
闭合发现算法(Closed Discovery Algorithm):根据用户给出的查询概念A和概念C,找到把它们联系起来的中间概念B,即A->B<-C,从而对新发现的A与C的关联进行验证。
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· 如何编写易于单元测试的代码
· 10年+ .NET Coder 心语,封装的思维:从隐藏、稳定开始理解其本质意义
· .NET Core 中如何实现缓存的预热?
· 从 HTTP 原因短语缺失研究 HTTP/2 和 HTTP/3 的设计差异
· AI与.NET技术实操系列:向量存储与相似性搜索在 .NET 中的实现
· 周边上新:园子的第一款马克杯温暖上架
· Open-Sora 2.0 重磅开源!
· 分享 3 个 .NET 开源的文件压缩处理库,助力快速实现文件压缩解压功能!
· Ollama——大语言模型本地部署的极速利器
· DeepSeek如何颠覆传统软件测试?测试工程师会被淘汰吗?