词法分析:命名实体识别
词法分析(lexical analysis):将字符序列转换为单词(Token)序列的过程。
分词,命名实体识别,词性标注 并称 汉语词法分析“三姐妹”。
命名实体识别(Named Entity Recognition,NER)NER的过程,就是根据输入的句子,预测出其标注序列的过程。
主要关注人名、地名和组织机构名这三类专有名词的识别方法。
一般一共分为四大类:PER(人名),LOC(位置),ORG(组织)以及MISC,而且B表示开始,I表示中间,O表示单字词
所谓实体识别,就是将你想要获取到的实体类型,从一句话里面挑出来的过程。
小明 在 北京大学 的 燕园 看了 中国男篮 的一场比赛
PER ORG LOC ORG
如上面的例子所示,句子“小明在北京大学的燕园看了中国男篮 的一场比赛”,通过NER模型,将“小明 ”以PER,“北京大学”以ORG,“燕园”以LOC,“中国男篮”以ORG为类别分别挑了出来。
命名实体识别的数据标注方式
NER是一种序列标注问题,因此他们的数据标注方式也遵照序列标注问题的方式,主要是BIO和BIOES两种。这里直接介绍BIOES,明白了BIOES,BIO也就掌握了。
先列出来BIOES分别代表什么意思:
B,即Begin,表示开始
I,即Intermediate,表示中间
E,即End,表示结尾
S,即Single,表示单个字符
O,即Other,表示其他,用于标记无关字符
将“小明 在 北京大学 的 燕园 看了 中国男篮 的一场比赛”这句话,进行标注,结果就是:
小明 在 北京大学 的 燕园 看了 中国男篮 的一场比赛
[B-PER,E-PER,O, B-ORG,I-ORG,I-ORG,E-ORG,O,B-LOC,E-LOC,O,O,B-ORG,I-ORG,I-ORG,E-ORG,O,O,O,O]
用到的算法:
隐马尔科夫模型HMM,条件随机场(Conditional Random Field, CRF),长短期记忆网络(LSTM,Long Short-Term Memory)
卷积神经网络(Convolutional Neural Networks, CNN),BERT(Bidirectional Encoder Representation from Transformers,即双向Transformer的Encoder)
DEMO
ref:
https://www.cnblogs.com/nxf-rabbit75/archive/2019/04/18/10727769.html