【NLP学习其四】如何构建自己用于训练的数据集？什么是词性标注？

数据集与词性标注

数据集是NLP中的重要一环。

但是提到数据集，很多人的第一个想法可能是：“这玩意从网上下载就好了，不用管”。

真的不用管？最开始我也是这么认为的

于是我直奔CoNLL-2003去下载数据集。地址如下：https://www.clips.uantwerpen.be/conll2003/ner/

但是经过了解，该数据集的来源是新闻报纸之类的内容，与我要应用NLP的领域严重不符。

所以，除非你的NLP任务与网络上已经公布的、较多人实现的任务重合，否则数据集一般不能直接使用

也就是说，在完成你的NLP任务前，你需要自行构建一个数据集

但是怎么做呢？我们现在可以确认的一件事情是：数据集不可能手动构建的

拿CoNLL-2003的数据集进行分析，我们需要构建一个与其形式类似的数据集应该怎么做？

U.N.         NNP  I-NP  I-ORG 
official     NN   I-NP  O 
Ekeus        NNP  I-NP  I-PER 
heads        VBZ  I-VP  O 
for          IN   I-PP  O 
Baghdad      NNP  I-NP  I-LOC 
.            .    O     O

这是eng.traindata数据集的一部分，简单介绍一下构成

第一列是单词，显然是来自原始文本；

第二列是词性（pos）标签，就是名词、动词、专有名词等等一些表示某个词词性的标注

第三列是句法块标签，表示某词在该句子中的上下文成分

第四列是命名实体识别（NER）标签,关于什么是NER，请看
https://www.cnblogs.com/DAYceng/p/14923065.html/

由于句法分析（也就是第三列标签）需要训练单独的模型来实现，这里不做介绍

到这里，事情就变得有点眉目了
我们只需要将第一列替换为自己需要的文本，并且获得该文本对应的POS和NER标签作为第二、三列即可

这里有两个关键词：POS和NER

通过高强度互联网搜索发现NLTK正好有用于POS的模块（nltk.pos_tag）以及用于chunk的模块（ne_chunk）

查看NLTK的文档得知，pos_tag（）的输入是一个进行tokenize分词之后的句子

这里文档使用了word_tokenize模块进行分词，如果你觉得其分词结果不满意，你也可以直接用split分词

tokenized_sentences = corup_token.split(" ")

pos_res = nltk.pos_tag(tokenized_sentences) #标注句子

这样就得到了一个句子的POS 标签

下面进行NER标注，依然是使用NLTK，并且需要使用到上一步中POS的结果

注：chunk的结果是一个“树”（一种特殊的数据结构）

tree = ne_chunk(pos_res)   # 使用nltk的chunk工具获得chunk的树结构

使用tree2conlltags对树进行解析可以得到我们需要的结果

iob_tags_listtup = tree2conlltags(tree) # 解析树，获得chunktags的元组列表

至此，我们就得到了一个句子的pos和ner标签

打包成一个函数如下：

def postags(croup_token,output):
    '''
    使用nltk.pos_tag对分词之后的summary进行词性标注
    :param output:
    选择输出形式，
    输出原始格式数据（0）：[('buffer', 'NN'), ('overflow', 'NN'), ...,(...)]
    输出词性标签（1）：['NN', 'NN',...,'...']
    输出chunking标签（2）
    :param croup_token:经过'分词-去除特殊符号-小写'处理的sentences数据
    :return:列表返回值
    '''
    ne_chunked_tags = []
    pos_tags = []
    pos_raw = []

    tokenized_sentences = croup_token_token.split(" ") #nltk.word_tokenize(data)
    # print(tokenized_sentences)
    pos_res = nltk.pos_tag(tokenized_sentences)
    pos_res_tup = pos_res[0]   # 得到元组

    tree = ne_chunk(pos_res)   # 使用nltk的chunk工具获得chunk的树结构
    # print(tree)
    iob_tags_listtup = tree2conlltags(tree) # 解析树，获得chunktags的元组列表
    # print(iob_tags_listtup)
    # print(iob_tags_listtup)
    for i in range(len(iob_tags_listtup)):
        # print(iob_tags_listtup[i])
        tmp_tup = iob_tags_listtup[i]
        # print(tmp_tup[2])
        pos_raw.append(tmp_tup)
        pos_tags.append(tmp_tup[1])
        ne_chunked_tags.append(tmp_tup[2])
    # print(ne_chunked_tags)

    if output == 0:
        return pos_raw
    elif output == 1:
        return pos_tags
    elif output == 2:
        return ne_chunked_tags

posted @ 2021-08-08 11:07 dayceng 阅读(1599) 评论(0) 收藏举报

刷新页面返回顶部

DAYceng

【NLP学习其四】如何构建自己用于训练的数据集？什么是词性标注？

数据集与词性标注

公告