大型语言模型 - 鹦鹉学舌的风险 (八卦一则)

谷歌员工Timnit Gebra因为一篇论文被炒事件，前一段时间闹得NLP界人人皆知的样子。

Timnit Gebra原本是google伦理道德AI组的co-lead，写了一篇论文，谈论关于大型语言模型的问题，谷歌AI管理层说，要么撤了这篇论文，要么得把来自google的其他作者删掉。Gebra当然很生气，要领导给出做决策的人名单以及解释为什么要这么做，不然自己就离职。结果当天就被fire了。谷歌对外宣称是Gebra自己离职的，Gebra说自己只是威胁离职，并没有真正离职。这件事闹得沸沸扬扬，2700名google员工，4300名学术界以及社会上的支持者联名谴责谷歌的做法。

前段时间，闲暇时间就拜读了一下这篇论文。这里分享一下阅读笔记。

论文标题: “On the Dangers of Stochastic Parrots: Can Language Models Be Too Big?”

这篇论文主要是批驳了目前的大型语言模型的问题。

1. 不环保，训练成本太高。这个其实Gebra不说，大家也知道。GPT-3训练之后，明明知道数据有误，都不想重新训练。不环保是一个问题，成本这么高，实验重现也自然成为问题。另外，也把一堆资金较少的学生党拒之门外。

2. 用于训练的数据很大，但是网上数据只能代表一代人一拨人，不全面。比如说reddit，老年人用户非常少，wikipedia的用户男性大大多于女性。这样学习出来的模型自然不能代表语言的全部。想起儿子的老师让大家多读一些经典文学，说现代文学语言表达比较简单，不利于全面学习语言。对数据输入的concern也是一样的道理。

3. 大型语言模型吸引了太多的研究资源，过多的精力都用于扩充网络和搞数据了。研究本应该多样化，这样才有利于科学的进步。所有的人都在搞一个方面的研究肯定是不对的。想起了去年的practical nlp conference。当时我听了十个talk，其中有八个都是基于BERT的。的确不是一个好现象。

4. 模型简单粗暴的从数据中学习，那些有种族歧视，色情暴力等不良内容也被通通学了个遍，那自然，这个语言模型的输出是相当原始，不服从人类文明发展规律。

5. 没有对语言模型的潜在风险进行分析，例如如何防止语言模型被用于犯罪企图。甚至有恐怖组织，拿着语言模型生成的广告来招兵买马。

论文写得相当的优美，对于各方面的考虑，也是作为严谨科学必须做到的。毕竟，机器学习模型不仅仅是精确度。那么谷歌管理层为什么反应这么大。估计BERT是自家的骄傲，容不得自家人来拆台子。

至于Gebra，在美国，作为black woman, 能成为该领域的精英，也是相当不容易。在谷歌担任伦理道德AI team的co-lead，并在业界组织很多关于AI和伦理道德讨论，受很多人尊重。她的wiki page也是值得一读。

阅读更多作者原创，关注微信公众号:

posted @ 2021-03-26 16:01 dagis 阅读(502) 评论(0) 编辑收藏举报

刷新页面返回顶部

dagis

大型语言模型 - 鹦鹉学舌的风险 (八卦一则)

公告