基于GPT-2预训练模型chat 演示-代码说明
基于GPT-2预训练模型chat 演示-代码说明
代码路径:shibing624/gpt2-dialogbot-base-chinese · Hugging Face
代码说明:4.MMI模型训练与生成_哔哩哔哩_bilibili
1 文本预处理
下载语料
2 train
1 dataset
2 dataloader
3 padding
4 打印训练loss,tensorboardx
5 try的目的为 加载超过mem可以舍弃但是又不至于终止训练。
模型原理可以在huggingface链接查到
模块使用方法也可以查到
3 推理
预训练模型 可以在链接中查到
4 MMI
说明MMi MMI(Maximum Mutual Information)在语言模型中,MMI model是一种将最大互信息准则应用于语言模型的建模方法。
逆序拼接语料训练。