《命名实体识别 NER 论文综述：那些年，我们一起追过的却仍未知道的花名（一）》，2020-05，龚俊民(昵称: 除夕)

本文介绍了NER的难点以及相应的解决方案，人机对话系统中的槽位标注也是NER任务，介绍的一些方法还是很有指导意义的。

难点1: 如何命名“命名实体”

何晗在《自然语言处理入门》一书中的总结如下：

数量无穷。比如宇宙中恒星名称、生物界中的蛋白质名称，即便是人名，也是会随着新生儿的命名不断出现新的组合。
构词灵活。比如中国工商银行，既可以称为工商银行，也可以简称为工行。一些机构名甚至存在嵌套现象，比如“联合国销毁伊拉克大规模杀伤性武器特别委员会”内部就嵌套了地名和另一个机构名。
类别模糊。一些命名实体之间的区别比较模糊，比如地名和机构名。有一些地名本身也是机构，比如“国家博物馆”，从地址角度来看属于地名，但从博物馆工作人员来看则是一个机构。

实体命名识别要面对的是排列组合可能无穷的词表。模型对 OOV 的泛化能力远低于我们的预期，所以通常做法是以统计为主，规则词典为辅。

关于基于规则和词典的方法，何晗在《自然语言处理入门》一书中将适于这种方法的实体分为两类

关于结合模型与规则的方法，可以用「张华平」和「刘群」等教授在提出的「角色标注框架」提出的思路。它的思路是，我们先为构成命名实体的短语打好标签，若标签的序列满足某种模式则识别为某种类别的实体。可以理解为为实体以及实体的上下文打标签，定义特征。

另外就是混在中文里的英文和数字，在char级别的时候，要注意后处理。

介绍了3中将词表信息融入模型的方法【值得一试】

介绍了两个思路：

何晗. 2019.《自然语言处理入门》. 中国工信出版社
Yue Zhang and Jie Yang. 2018. Chinese ner using lattice lstm. Proceedings of the 56th Annual Meeting of the Association for Computational Linguistics (ACL), 1554-1564.
Tao Gui, Ruotian Ma, Qi Zhang, Lujun Zhao, Yu-Gang Jiang, and Xuanjing Huang. Cnn-based chinese ner with lexicon rethinking.
Minlong Peng, Ruotian Ma, Qi Zhang, Xuanjing Huang. Simplify the Usage of Lexicon in Chinese NER.
Jingbo Shang, Liyuan Liu, Xiaotao Gu, Xiang Ren, Teng Ren, Jiawei Han. Learning Named Entity Tagger using Domain-Specific Dictionary.

posted @ 2020-05-23 18:34 ZH奶酪阅读(843) 评论(0) 收藏举报

刷新页面返回顶部