BERT词表unused token不连续

huggingface所提供的的BERT的vocab.txt中,unused_xxx的token是不连续的在99前插入了几个CLS UNK之类的token,所以如果你想要一段连续的词(比如pix2seq中直接用偏移量把坐标转换为token_id)最好从100开始,或者单独加入新的词。
posted @ 2022-04-25 09:32  Luke_Ye  阅读(136)  评论(0编辑  收藏  举报