ner任务中subword对tag序列的影响

https://tianchi.aliyun.com/forum/post/336310

由于标注数据通常是在word级别进行标注的,既然word还会被切分成subtokens,那么意味着我们还需要对标注数据进行subtokens的对齐。同时,由于预训练模型输入格式的要求,往往还需要加上一些特殊符号比如: [CLS] 和 [SEP]

tokenizer有一个word_ids方法可以帮助我们解决这个问题。

posted @ 2023-04-17 14:25  morein2008  阅读(25)  评论(0编辑  收藏  举报