ner任务中subword对tag序列的影响
https://tianchi.aliyun.com/forum/post/336310
由于标注数据通常是在word级别进行标注的,既然word还会被切分成subtokens,那么意味着我们还需要对标注数据进行subtokens的对齐。同时,由于预训练模型输入格式的要求,往往还需要加上一些特殊符号比如: [CLS]
和 [SEP]
。
tokenizer有一个word_ids
方法可以帮助我们解决这个问题。
https://tianchi.aliyun.com/forum/post/336310
由于标注数据通常是在word级别进行标注的,既然word还会被切分成subtokens,那么意味着我们还需要对标注数据进行subtokens的对齐。同时,由于预训练模型输入格式的要求,往往还需要加上一些特殊符号比如: [CLS]
和 [SEP]
。
tokenizer有一个word_ids
方法可以帮助我们解决这个问题。