摘要:
有时候在做分类任务时,如果一些类别明确不会被分类到,可以通过mask把logits非法部分置为较大的负数。但此处如果引入了标签平滑,那么这些区域会因为负值非常大而产生巨大的损失。 阅读全文
摘要:
huggingface所提供的的BERT的vocab.txt中,unused_xxx的token是不连续的在99前插入了几个CLS UNK之类的token,所以如果你想要一段连续的词(比如pix2seq中直接用偏移量把坐标转换为token_id)最好从100开始,或者单独加入新的词。 阅读全文