大型语言模型 - 鹦鹉学舌的风险 (八卦一则)
谷歌员工Timnit Gebra因为一篇论文被炒事件,前一段时间闹得NLP界人人皆知的样子。
Timnit Gebra原本是google伦理道德AI组的co-lead,写了一篇论文,谈论关于大型语言模型的问题,谷歌AI管理层说,要么撤了这篇论文,要么得把来自google的其他作者删掉。Gebra当然很生气,要领导给出做决策的人名单以及解释为什么要这么做,不然自己就离职。结果当天就被fire了。谷歌对外宣称是Gebra自己离职的,Gebra说自己只是威胁离职,并没有真正离职。这件事闹得沸沸扬扬,2700名google员工,4300名学术界以及社会上的支持者联名谴责谷歌的做法。
前段时间,闲暇时间就拜读了一下这篇论文。这里分享一下阅读笔记。
论文标题: “On the Dangers of Stochastic Parrots: Can Language Models Be Too Big?”
这篇论文主要是批驳了目前的大型语言模型的问题。
1. 不环保,训练成本太高。这个其实Gebra不说,大家也知道。GPT-3训练之后,明明知道数据有误,都不想重新训练。不环保是一个问题,成本这么高,实验重现也自然成为问题。另外,也把一堆资金较少的学生党拒之门外。
2. 用于训练的数据很大,但是网上数据只能代表一代人一拨人,不全面。比如说reddit,老年人用户非常少,wikipedia的用户男性大大多于女性。这样学习出来的模型自然不能代表语言的全部。想起儿子的老师让大家多读一些经典文学,说现代文学语言表达比较简单,不利于全面学习语言。对数据输入的concern也是一样的道理。
3. 大型语言模型吸引了太多的研究资源,过多的精力都用于扩充网络和搞数据了。研究本应该多样化,这样才有利于科学的进步。所有的人都在搞一个方面的研究肯定是不对的。想起了去年的practical nlp conference。当时我听了十个talk,其中有八个都是基于BERT的。的确不是一个好现象。
4. 模型简单粗暴的从数据中学习,那些有种族歧视,色情暴力等不良内容也被通通学了个遍,那自然,这个语言模型的输出是相当原始,不服从人类文明发展规律。
5. 没有对语言模型的潜在风险进行分析,例如如何防止语言模型被用于犯罪企图。甚至有恐怖组织,拿着语言模型生成的广告来招兵买马。
论文写得相当的优美,对于各方面的考虑,也是作为严谨科学必须做到的。毕竟,机器学习模型不仅仅是精确度。那么谷歌管理层为什么反应这么大。估计BERT是自家的骄傲,容不得自家人来拆台子。
至于Gebra,在美国,作为black woman, 能成为该领域的精英,也是相当不容易。在谷歌担任伦理道德AI team的co-lead,并在业界组织很多关于AI和伦理道德讨论,受很多人尊重。她的wiki page也是值得一读。
阅读更多作者原创,关注微信公众号: