huggingdace tokenizer踩坑

tokenizer有个私有方法_convert_token_to_id，但这个方法是不会考虑added的词表的，如果用这个函数获取额外添加的词，会返回unk的id，正确的方法是采用_convert_token_to_id_with_added_voc这个函数。

posted @ 2021-06-15 20:44 Luke_Ye 阅读(186) 评论(0) 收藏举报