Loading

2信息抽取任务

信息抽取任务Information Extraction

信息抽取任务关心四大类对象:

  • 实体Entitiy
  • 关系Relation
  • 事件Events
  • 情感Sentiment

实体Entity

一段文字中的人名、地名、机构名等专有名词叫做命名实体,命名实体识别是一个自然语言处理任务,从一句话中自动标注命名实体的位置和类型。

关系Relation

关系代表两个或者多个实体之间的内在关联知识。关系抽取识别命名实体之间的特定关联。
实体和关系知识可以组成知识图谱,知识图谱是一种数据库的格式,可以用图结构表示知识,图中的节点代表实体,节点之间的边代表关系知识。

知识图谱相关的任务

  • 实体链接Entity linking:研究如何把文本中的实体和知识图谱中的实体进行关联,有助于更准确理解文本的含义
  • 命名实体规范化 Named entity normalization:一个实体可能有多种表示,如USA、The US、The states、America。将多种表示统一成一种形式可以帮助下游任务。
  • 链接预测(知识图谱补全)Link prediction(knowledge graph completion):知识图谱都是不完备的,但是很多知识可以从知识图谱已有的事实中推理得到。知识图谱补全就是通过已有的知识图谱判断事实是否成立的任务。

事件Event

事件有不同的类型,从文本中抽取事件需要关键事件对应的触发词,如外交访问事件与visit有关。一个事件除了触发词还有相关的属性,如访问者、访问对象。

  • 事件抽取(Event Extraction)是信息抽取中的一个重要任务,从文本中检测触发词并且判断对应的事件类型和事件属性。
  • 新事件探测(New Event detection)通过社会媒体中的文本,自动发现与自然灾害、流行病爆发相关的讨论内容,为防范做准备
  • 事实性检测(Event factuality prediction)是判断事件可行程度的信息抽取任务。
  • 事件时间顺序推断(Event time Extraction)是从文本的叙述顺序中自动抽取和恢复事件原先的事件顺序的任务

情感Sentiment

  • 情感分析(Sentiment classification):情感分析是信息抽取和数据挖掘中的一个重要的任务,情感分析任务有很多不同的形式,最简单的形式是情感分类,输入一段文字,输出其是正面还是负面的情感。
  • 基于对象的情感(Targeted sentiment):自动从文本中检测命名实体以及其含有的情感
  • 基于方面的情感(Aspected-oriented sentiment):源于商品评论,对一个商品的评价往往包含不同反面的评价,基于方面的情感可以给出比文档级别的情感更丰富的内涵
  • 细粒度情感分析(Fine-grained sentiment classification):包含情感所有者(opinion holder)、情感对象(opinion target)、情感表达短语(opinion expression)和情感极性(opinion polarity)。如Time blamed Mary for not buying the watch中情感持有者是Tim,情感对象是Mary,情感表达短语是not buying the watch,情感极性是negative。
posted @ 2023-02-16 11:02  CHhY  阅读(40)  评论(0编辑  收藏  举报