ner任务中subword对tag序列的影响

由于标注数据通常是在word级别进行标注的，既然word还会被切分成subtokens，那么意味着我们还需要对标注数据进行subtokens的对齐。同时，由于预训练模型输入格式的要求，往往还需要加上一些特殊符号比如： [CLS] 和 [SEP]。

tokenizer有一个word_ids方法可以帮助我们解决这个问题。

posted @ 2023-04-17 14:25 morein2008 阅读(43) 评论(0) 收藏举报

刷新页面返回顶部

morein2008