随笔分类 - 预训练模型
摘要:**模型下载地址**:https://www.huggingface.co/THUMT/mGPT ### mGPT mGPT使用因果语言建模目标在[mC4 数据集](https://huggingface.co/datasets/mc4)上进行预训练。它已在[本文](https://arxiv.or
阅读全文
摘要:Transformer 有两个模型的规模大小标准:base、big。具体去thumt的models文件夹下的Transformer 模型实现可以看到其参数大小。 ![](https://img2023.cnblogs.com/blog/3085423/202307/3085423-202307041
阅读全文