1.NER简介

(1)单句子标注任务,又叫命名实体识别(Named Entity Recognition),或者“专名识别”,简称NER,是一个序列标注任务。

(2)NER是指识别文本中具有特定意义的实体,包括三大类(实体类,时间类,数字类),七小类(人名P/PER(person),地名A/LOC(address,local),机构名O/ORG(organization),时间TIME,日期,货币,百分比)。

(3)通常包括两部分:实体边界识别;确定实体类别。

(4)常见的NER数据集有CoNLL-2003 NER。

(5)NER的输入数据是什么?【查】

参考:

  https://blog.csdn.net/libaominshouzhang/article/details/100100547

  https://www.pianshen.com/article/874512843/

(6)输出数据是NER数据文件。

(7)NER的数据格式:NER数据文件每一行由一个字和对应的标注组成,常用BIO和BIESO两种标注,句子之间用一个空行隔开。

2.纯中文标注

(1)IO

命名实体内部 Inner,命名实体外部(不是命名实体)Outer。

(2)BIO(常用)

命名实体的开始Begin,命名实体内部Inner,命名实体外部(不是命名实体)Outer。

 

(3)BIESO(常用)

命名实体的开始Begin,命名实体内部Inner,命名实体外部(不是命名实体)Outer,命名实体结尾End,单字的词/独立命名实体Single。

位置实体的开头(B_LOC),位置实体的中间(I_LOC)。

(4)BMES

命名实体的开始Begin,命名实体中间Middle,命名实体结尾End,单字的词/独立命名实体Single。

(5)BMEWO

命名实体的开始Begin,命名实体中间Middle,命名实体外部(不是命名实体)Outer,命名实体结尾End,一个字的独立命名实体Whole。  

3.既有中文又有英文

(1)BIOX

如果处理的数据中有英文,采用BIOX。

命名实体的开始Begin,命名实体内部Inner,命名实体外部(不是命名实体)Outer。

X标注英文单词分词之后的非首单词。也就是词根用BIO正常标注,词缀用X表示。

eg:playing 输入BERT模型前会被BERT自带的Tokenization工具分为“play”和“#ing”。二者分别标注为O和X。

 

4.用BERT做NER的运算逻辑

 

 

5.NER下接结构(BiLSTM+CRF)

 

 

 

 

 

 

 

参考:

https://www.cnblogs.com/jiangxinyang/p/9368482.html

https://lingpipe-blog.com/2009/10/14/coding-chunkers-as-taggers-io-bio-bmewo-and-bmewo/

https://www.bilibili.com/video/BV1BK4y1C7Hj?from=search&seid=13802326660109437745

https://www.pianshen.com/article/874512843/

posted on 2020-05-21 12:15  西伯尔  阅读(1251)  评论(0编辑  收藏  举报