用深度学习做命名实体识别(三)：文本数据标注过程

上一篇文章，我们介绍了brat的安装和配置，当成功安装和配置好了brat，我们就可以进行文本标注了。

首先，在brat项目的data目录下新建一个project目录，然后在brat项目的主目录下找到以下文件，复制到project目录：

主目录：/var/www/html/brat
project目录：/var/www/html/brat/data/project
要复制的文件：

我们来看一下这几个文件分别是做什么的。

annotation.conf
这个是配置文件，内容如下：

[entities]
# Definition of entities.
# Format is a simple list with one type per line.
时间
地点
人名
组织名
公司名
产品名

visual.conf

这也是配置文件，可以配置不同的类别用不同的颜色显示，找到如下段落，更新内容：

[drawing]
时间 bgColor:yellow
地点 bgColor:blue, fgColor:white
人名 bgColor:deepskyblue
组织名 bgColor:green, fgColor:white
公司名 bgColor:purple, fgColor:white
产品名 bgColor:pink

mayun.txt

这是我们要标注的原文件，里面的内容片段如下（这里已经根据句号进行过分句处理，是因为不希望每个训练样本太长，建议控制在500字符内）：

1964年9月10日，马云出生在杭州。
幼年的马云在人们的眼中是典型的坏孩子：叛逆、倔强、爱打架、逞强、顽皮淘气。
马云的父亲虽然是典型的江南人，但脾气却很火暴，马云从小在父亲拳脚下长大。
马云是看金庸的武侠小说长大的，行侠仗义、打抱不平的“侠义”情结在少年马云的内心深处早已生根、萌芽。

mayun.ann是一个空文件，使用brat对mayun.txt的标注结果，会记录在ann文件中。

此时我们通过浏览器访问brat项目界面，打开project目录下的mayun.txt文件(记得要先登录)，看到的界面如下：

然后我们选择目标实体，比如“马云”，进行实体类别标注，效果如下：

此时，你可以邀请其他人用他们的帐号登录brat，也打开这个txt，和你一起标注。
标注之后，再看看ann文件内容，如下：

T1,T2所在的列，表示标注的类型和序号，比如如果是标注的实体间的关系会用R表示，这里因为只讨论命名实体，不涉及实体间的关系，所以只要知道这个T表示什么就可以了；
人名，公司名所在列表示标注词汇的实体类别；
第三、四列是标注词汇在整个txt中的起始和(结束索引+1)
最后一列是就是标注的词汇列

标注完成后，我们就有了mayun.txt和mayun.ann两个对应的文件。关于如何使用这两个文件，将在下一篇《用深度学习做命名实体识别(四)：模型训练》中介绍。

ok，本篇就这么多内容啦~，感谢阅读O(∩_∩)O，88~

posted @ 2019-09-06 21:03 AI粉嫩特攻队阅读(12445) 评论(0) 收藏举报

刷新页面返回顶部

AI粉嫩特攻队

关注我，帮你把时间还给创造！

用深度学习做命名实体识别(三)：文本数据标注过程

公告