序列标注

1.NER简介

（1）单句子标注任务，又叫命名实体识别（Named Entity Recognition），或者“专名识别”，简称NER，是一个序列标注任务。

（2）NER是指识别文本中具有特定意义的实体，包括三大类（实体类，时间类，数字类），七小类（人名P/PER(person)，地名A/LOC(address,local)，机构名O/ORG(organization)，时间TIME，日期，货币，百分比）。

（3）通常包括两部分：实体边界识别；确定实体类别。

（4）常见的NER数据集有CoNLL-2003 NER。

（5）NER的输入数据是什么？【查】

参考：

（6）输出数据是NER数据文件。

（7）NER的数据格式：NER数据文件每一行由一个字和对应的标注组成，常用BIO和BIESO两种标注，句子之间用一个空行隔开。

命名实体内部 Inner，命名实体外部（不是命名实体）Outer。

命名实体的开始Begin，命名实体内部Inner，命名实体外部（不是命名实体）Outer。

命名实体的开始Begin，命名实体内部Inner，命名实体外部（不是命名实体）Outer，命名实体结尾End，单字的词/独立命名实体Single。

位置实体的开头（B_LOC），位置实体的中间（I_LOC）。

命名实体的开始Begin，命名实体中间Middle，命名实体结尾End，单字的词/独立命名实体Single。

命名实体的开始Begin，命名实体中间Middle，命名实体外部（不是命名实体）Outer，命名实体结尾End，一个字的独立命名实体Whole。

如果处理的数据中有英文，采用BIOX。

命名实体的开始Begin，命名实体内部Inner，命名实体外部（不是命名实体）Outer。

X标注英文单词分词之后的非首单词。也就是词根用BIO正常标注，词缀用X表示。

eg：playing 输入BERT模型前会被BERT自带的Tokenization工具分为“play”和“#ing”。二者分别标注为O和X。

参考：

posted on 2020-05-21 12:15 西伯尔阅读(1251) 评论(0) 编辑收藏举报