摘要:
多语言模型 大多数模型都是单语言的(英语,汉语,德语)。有一小部分可用的多语言模型,它们与单语言模型有着不同的机制。本篇教程详细叙述这些模型的使用方法。 XLM XLM总共拥有10个不同的checkpoint,只有一个是单语言的。其余9个可以划分为两类:使用了语言嵌入的checkpoint,和没有使 阅读全文
摘要:
分词器简介 在本篇教程中,我们将近距离观看分词。 正如我们在预处理教程中看到的那样,对文本分词就是将其切分成单词或子词,进而可用通过查表的方式获得ids。将单词或者子词转换为ids是非常直接的,因此在本篇中,我们主要关注将文本切分成单词或者子词。更具体来说,我们会看到在Transformers中使用 阅读全文