2023年3月的10篇论文推荐

三月有很多的重大产品发布,包括刚刚发布的GPT4,还有Meta刚发布就被泄露的LLaMA,midjourney V5,还有ChatGPT的API(非常便宜)等等。

但是本文整理的是本月应该阅读的10篇论文,将包括多模态语言模型、扩散模型、机器翻译等主题。

1、LLaMA: Open and Efficient Foundation Language Models

Hugo Touvron, Thibaut Lavril, Gautier Izacard, Xavier Martinet, Marie-Anne Lachaux, Timothée Lacroix, Baptiste Rozière, Naman Goyal, Eric Hambro, Faisal Azhar, Aurelien Rodriguez, Armand Joulin, Edouard Grave, Guillaume Lample

https://arxiv.org/pdf/2302.13971

开源的LLaMA,并且开放了模型权重,但是需要申请才可以下载,不过有网友已经将它全部公开下载了,这对我们来说是个好事。这个模型在超过一万亿令牌上进行训练,主要包括以下几个模型:

 

 

这些模型是在完全公开的数据上进行训练的,它们在各种QA和常识推理任务中都能在零样本和少样本中取得出色的表现。

 

 

这些开源的模型既没有经过微调,也没有RLHF化,所以还需要我们自行调教,这也正好适合我们的弯道超车,下载地址我们以前已经发布过了,有兴趣的可以去看看。

完整文章:

https://avoid.overfit.cn/post/f1efb21c3ca54c9aa266aa9a623a42f6

posted @ 2023-03-19 09:56  deephub  阅读(72)  评论(0编辑  收藏  举报