语言模型和GPT-3 一键生成原创视频除了可选的模型架构和线性注意实现之外,还使用了自我注意模型,这便于扩展到更大的模型大小和上下文长度,包括:
1、局部注意模型;
2、专家混合模型;
3、轴向位置嵌入模型;
4、涵盖语言模型等。
培训结束后,将发布预培训模型。
GPT 3号如此强大,为什么还要建造另一艘?因为GPT-3并不像OpenAI创建的语言模型那么简单,它既不是开源也不是开放的,而是微软作为“独家协议”签署的模型,它只开放API给大家使用,还可以管理用户使用的方式。在这种情况下,其他厂商肯定心有余悸。毕竟微软是嫡系,我们都是旁系,所以很多人想造一个随时可以开的轮子。团队的名字也很有意思。古希腊语伊鲁瑟里亚的意思是自由,bert模型各层这与OpenAI如出一辙。
GPT-尼奥也是基于变形金刚,并计划在GPT附近进行训练。最初的计划是复制一个像GPT 3号一样大的开源模型。当然,所有版本都会在博客中同步。目前基于mesh-Tensorflow (TPU训练)和Deepspeed (GPU训练)。两者都可以达到GPT-3的大小。然而,由于缺乏支持,该团队仍然缺乏TPU来训练175b的模型。还好他们的GPU应该够用。很快,该团队将发布一个更小的模型,然后将有GPT-neox,就像GPT-X一样。
由于项目没有完全完成,自然语言处理只完成了部分文档和简单的培训展示,配置方案的更新和TPU培训需要进一步补充,而且由于数据集太大,只能简单了解其展示效果。