会员
周边
众包
新闻
博问
闪存
赞助商
所有博客
当前博客
我的博客
我的园子
账号设置
简洁模式
...
退出登录
注册
登录
Luke_Ye
博客园
首页
新随笔
联系
管理
订阅
BERT词表unused token不连续
huggingface所提供的的BERT的vocab.txt中,unused_xxx的token是不连续的在99前插入了几个CLS UNK之类的token,所以如果你想要一段连续的词(比如pix2seq中直接用偏移量把坐标转换为token_id)最好从100开始,或者单独加入新的词。
posted @
2022-04-25 09:32
Luke_Ye
阅读(
136
) 评论(
0
)
编辑
收藏
举报
刷新页面
返回顶部
公告