源码阅读笔记 BiLSTM+CRF做NER任务（一）

源码地址：https://github.com/ZhixiuYe/NER-pytorch

本篇主要介绍NER任务、Conll 2003(English)数据集及数据集相关统计

一、NER任务

NER(命名实体识别)是一项基础任务，通常是做知识图谱等任务的必要过程。一般是指给定一段文本，识别出里面的实体，实体主要包括人名、地名、机构名、时间、数量等等。如：

使用的是CoNLL 2003(English)，数据的每行为一个单词，每个句子单位由空行隔开。

每行的第一项是单词，第二项是词性标记，第三项是句法块标记，第四项是命名实体标签。示例如下：

实体类型包含四类：人名（PER）、地名（LOC）、组织名（ORG）、其他实体名（MISC）

数据由三个文件组成：一个训练文件和两个测试文件testa和testb。testa作为测试集用于确定最佳的参数。testb作为测试集用于最终评估。

注意：命名实体标签的格式为I-type，这意味着单词位于类型为的短语中。只有当同一类型的两个短语紧跟在一起时，第二个短语的第一个单词才会有标记B-type来表示它开始一个新短语。

posted on 2020-04-22 16:41 桩子101 阅读(1089) 评论(0) 编辑收藏举报