吴 军:ChatGPT不算新技术革命,带不来什么新机会 AI生成的每一个文字,每一个对话,都是根据此前一个字的生成情况,或者问题本身,通过概率的推导所产生

他,26岁,登上《福布斯》封面 https://mp.weixin.qq.com/s/vVc9fbex5ebr9cszB1cXgA

小结:

1、

大模型的不同之处在于,不事先假定到底需要完成哪些任务或者特定能力。它穷尽互联网尽可能获取多的数据,让模型自动地从这些数据里面学习知识。

2、

一方面我们要搜集更多更精准的语料库,另一方面,还要加强对这些语料进行清洗、标注。

3、

长期来看,靠人力的堆积支撑的数据产业,并不会有太大改变。

“大模型来了以后,很多人认为今后数据标注的工作会减少。”他表示,“但其实忽略了一点,随着AI功能越来越多,很多时候到了未涉足领域的时候,可能还需要人工处理。”

4、

最早的人脸识别,只需要在人脸上做一个拉框的标注,就可以完成对应需要的训练。而现在,还要求对人脸的关键点、表情或者一些人脸的属性或者姿态,例如半张脸被遮挡时等情况,进行标注。

 

图片图片

作者 | 南风窗高级记者 朱秋雨


2023年4月底,一个亚洲面孔登上了著名杂志《福布斯》的封面。这是一位年仅26岁的华裔企业家,名叫Alexandr Wang。

 

他手握最高估值73亿美元的科技公司。

 

2017年,Alexandr创立了一家名叫Scale AI的公司,走的是最热的AI赛道。7年后,他做的东西已经无可替代。据《福布斯》报道,Scale AI如今包揽了多家头部自动驾驶车企的服务,谷歌的Waymo、丰田汽车是它的拥趸。2020年起,它还从美国国防部处拿下了多个天价订单。

 

图片

Alexandr Wang

 

Sacle AI走的路子,是常被头部大厂和AI创业者忽略的方向,叫AI的标注数据集。

 

这是AI领域里的石油,有数据才能源源不断给深度学习提供燃料。一项数据显示,截至2021年,全球排名前1000万个网站中,英文内容占比60.4%,中文内容占比仅1.4%。中国AI需要依赖大量英文数据集训练。

 

实际上,国内不乏做AI数据集和数据标注的公司。上市公司海天瑞声、头部创业公司云测数据、数据堂等等,是业内佼佼者。

 

图片

人工智能数据标注流程 / 精数标注研究院

 

比起人工智能产业给人“高大上”的直觉,数据工作面临繁琐的清洗、标注、处理等过程。业内因此盛传一句话,“人工有多强大,智能才有多强大”。

 

AI分析公司Cognilytica数据显示,在AI项目中,数据相关的处理过程占据超过80%的时间。

 

云测数据总经理贾宇航对南风窗总结,互联网大厂、创业公司更多在研究算法,数据集公司在做工程的事情。

 

在各家巨头猛追Open AI的当下,是时候关注支持AI深度学习的第一步——数据了。

 

 

图片

机遇来了

不管业务是否与大模型挂钩,国内数据集公司近日受到了一大波关注。

 

数据集上市公司海天瑞声在3月底只用了3个交易日,累计涨幅近33%。股价创历史新高,比年初翻了三倍多。

 

尽管该公司早已贴出风险提示:“自然语言业务对公司整体贡献大约在10%左右。”“公司尚未与OpenAI开展合作,其ChatGPT的产品和服务尚未给公司带来业务收入。”

 

图片

 

因为ChatGPT,云测数据总经理贾宇航也在2023年收到了来自各行各业对大模型和数据集的关注和问询。“每个人都对大模型各有各的看法,我们相互学习。”他告诉南风窗。

 

单论技术角度而言,ChatGPT代表的大模型,采用了与过往AI数据标注不同的技术路径。在过去,机器学习的主流依赖于human-in-the-loop,即有监督的学习。

 

有监督学习依赖大量人工对数据进行预处理、标注。例如,猫的图片,需要人类事先标注,用机器听得懂的语言告诉它只是一只猫。行内公认的规则是,人类上传的标注数据越多、越准确,机器学习的效果越好。

 

而ChatGPT代表的大模型,采用的是自监督学习模式。简单来说,考验的是机器自我学习能力。

 

图片

采用“Human-in-the-loop”的交互式框架进行数据标注,以有效减少人工数据标注量

 

清华大学计算机系自然语言处理实验室副教授刘知远告诉南风窗,“大模型的不同之处在于,不事先假定到底需要完成哪些任务或者特定能力。它穷尽互联网尽可能获取多的数据,让模型自动地从这些数据里面学习知识。”

 

OpenAI曾披露,训练GPT的模型是基于公开网站的数据,包括维基百科、专业论坛、电子书网站和媒体报道等各类高质量文本。

 

尽管对数据标注的需求减少,ChatGPT的成功,却给了众人更有用的启示:高质量数据集对训练AI大模型至关重要。基于GPT-3.5的ChatGPT 使用强化学习和人类反馈(RLHF),也涉及了大量数据标注工作。

 

据披露,ChatGPT的RLHF标注,需要大量专业的人才。为此,Open AI特地招了几十名博士生做标注,针对机器的回答和指令进行基于人类逻辑的反馈。据《福布斯》报道,Open AI同时使用了外包服务,Alexandr Wang 的Scale AI也参与了训练ChatGPT。

 

图片

ChatGPT模型的训练过程

背靠清华大学的AI初创企业聆心智能联合创始人郑叔亮告诉南风窗,以 ChatGPT为代表的生成式AI,对数据质量提出了更高要求。

 

“AI生成的每一个文字,每一个对话,都是根据此前一个字的生成情况,或者问题本身,通过概率的推导所产生,”郑叔亮说。

 

这种模式下,一旦数据质量不高,生成的效果便是胡说八道、毫无可信度的AI。郑叔亮表示:“因此,一方面我们要搜集更多更精准的语料库,另一方面,还要加强对这些语料进行清洗、标注。”

 

图片

ChatGPT回答数据标注对ChatGPT的帮助

 

据美媒报道,拥有发达智能水平的ChatGPT,背后还有一群来自非洲肯尼亚的数据标注员。他们每天工作9个小时,阅读150-200段文字,标注带有性、暴力与仇恨言论的内容。

 

最终,一个月获得约合2500-3000人民币的报酬。

 

人工智能的背后仍是人工的努力。贾宇航分析,长期来看,靠人力的堆积支撑的数据产业,并不会有太大改变。

 

“大模型来了以后,很多人认为今后数据标注的工作会减少。”他表示,“但其实忽略了一点,随着AI功能越来越多,很多时候到了未涉足领域的时候,可能还需要人工处理。”

 

他认为,数据标注不会随着生成式大模型的诞生而减少,“反而有可能会更多”。

 

 

图片

AI业的“富士康”

ChatGPT的出圈,带给国内数据集公司的不是猛火,而是久旱后的甘霖。

 

中国数据集公司兴起时间与Scale AI相似,都在2016-2017年。这类公司的核心目标,是帮助AI企业最大限度地减少劣质数据带来的影响。

 

不过,数据公司以销售数据集为生的少之又少。中国AI数据的头部公司中,明确在官网提及数据集业务的只有科创板上市公司海天瑞声。

 

图片

海天瑞声官网截图

 

据该公司披露,基于多年语音识别及合成领域的技术积累,其在多语种领域构筑深厚技术壁垒。截至2022第一季度,海天瑞声覆盖190个语种,累积词条数超过1000万,客户包括阿里巴巴、腾讯、百度、微软等大厂。

 

比起销售数据集,更多公司在做的是数据的下一环,数据标注。

 

贾宇航对南风窗介绍,数据集业务占云测数据中很小的部分。这一业务主要的运用场景在人工智能产品刚立项的阶段,“项目刚立项或进行预演时,需要一些开源,或者行业的基础数据集,以快速完成对算法的验证。”

 

而更多企业的需求,会在后面的阶段爆发,即当AI产品进入正式的研发和持续迭代时。

 

“这时候,对应的传感器或者场景明确,需要基于特定的场景完成数据的采集、清洗和标注。我们因此提供场景化的数据标注等服务。”贾宇航说。

 

图片

Scale AI 发布了激光雷达数据集 PandaSet,可用于训练自动驾驶模型

 

据前瞻产业研究院统计,中国数据标注公司从2014年兴起,发展到2017年达到高峰。2017年,数据标注相关融资事件达到9起。

 

这个数字,也是接下来多年的高峰。

 

劳动密集是这一阶段数据标注业的特点。据36氪报道,一家资深数据标注公司透露,行业内平均每家数据众包平台都有上万人。因此,有人比喻,数据标注业就像“人工智能背后的富士康”。

 

2018年,位于太原的山西转型综合改革示范区与百度达成合作,打造了号称“全国范围内人员和产值规模最大的单体数据标注基地”。据百度披露,该基地占地面积超1万平米,带动了至少200家从事数据服务的公司。

 

图片

数据标注师正在进行标注工作

 

而相对较低的技术门槛,使得数据标注公司多分布于中小城市。以百度为例,该公司披露,旗下数据众包平台百度众测除了安在太原,还在山西临汾、重庆奉节、四川达州、甘肃酒泉、江西新余、浙江丽水、广东清远、湖南郴州、黑龙江哈尔滨等地设点。

 

劳动密集的另一面意味着低门槛。在2021年版的《人工智能训练师国家职业技能标准》中,对该职业的能力特征描述是“具有一定的学习能力、表达能力、计算能力”,普遍受教育程度写的是“初中毕业”。根据媒体报道的数据标注师群体,许多都是中专、大专毕业生,也容纳宝妈、退役军人等各类群体。

 

低门槛的同时使得数据标注行业的小作坊遍地开花。

 

比起已经进入E轮融资、占据海外市场的Scale AI,占据我国数据标注市场主要份额的,反而是以工作室形态存在的小公司。

 

图片

Scale AI 完成的一项机械臂标记任务

 

他们被称为“公会”“团队”,通常在众包平台上接单,或者接第三方中介公司转过来分包的订单。

 

“公会”没能推动数据标注业愈加繁荣。相反,越来越低的标注价格让行业内部竞争加剧。

 

2017年开始,AI数据公司融资的量开始下滑。2018年,AI数据公司相关融资只有5笔,平均每笔只有千万级。到了2021年,相关融资只剩下一年两笔。

 

赢识科技首席执行官楚汝峰曾在受访时表示,我国数据标注的竞争激烈,没能出现像Scale AI独角兽巨头主要是因为,“国内做标注的小作坊太多了,市场不集中。”

 

 

图片

转 型

数据集公司受AI行业的兴衰而变化。与Scale AI相似,给中国数据标注公司带来转机的,是大量涌现的自动驾驶企业。

 

中国工程院院士邬贺铨曾分析:“智能驾驶需要让汽车自动识别马路。但如果只是将视频单纯传给计算机,计算机无法识别,需要人工在视频中将道路框出。计算机多次接受信息后,才逐渐学会在视频和照片中识别道路。”

 

智能驾驶带来了大量的需求。国内头部数据企业,例如云测数据、数据堂、龙猫数据等,纷纷转向为车企提供服务。

 

图片

在科幻作品中,经常出现智能驾驶汽车的画面 /《机械公敌》剧照

 

据报道,国内一批主流的主机厂,如吉利、上汽、广汽等,从2021年始加强了自动驾驶数据标注方面的投入。到2022年,上述车企的投入预算已经在几十万元的基础上翻了十余倍。

 

数据堂公司相关负责人也曾在2022年受访时说:“(车企)数据需求缺口仍在,市场远未饱和。这对于真正优质的数据供应商来说,正是抢占市场高地的绝佳时机。”

 

愈加激烈的竞争,对数据标注行业提出了现实的挑战。数据标注公司普遍开始转型。

 

一个业内公认的方向是,从劳动密集型走向AI辅助标注。

 

“人机交互式,”贾宇航总结。

 

他解释,随着这几年的发展,数据标注的类型和内容越来越复杂。“最早的人脸识别,只需要在人脸上做一个拉框的标注,就可以完成对应需要的训练。而现在,还要求对人脸的关键点、表情或者一些人脸的属性或者姿态,例如半张脸被遮挡时等情况,进行标注。”

 

图片

 

市场的变化要求更高水准的数据处理能力。包括Scale AI、Appen等在内的国际数据公司将目光锁定在数据标注的平台以及工具化上。杭州数据标注公司曼孚科技曾对媒体总结:“Scale AI的平台工具已经在很大限度上淡化了人在其中的决定性作用,这成为企业竞争力的关键。”

 

贾宇航告诉南风窗,在强调质量和效率的当下,数据标注AI工程化的趋势愈加明显。

 

也就是说,如何把人组织起来,与机器交互,高效运转数据处理的过程,成为各家公司竞相“卷”的方向。

 

云测数据曾推出基于多端数据融合的标注平台4.0版。一大核心技术特点是多传感器融合。例如,在自动驾驶业,有了多个传感器的融合,系统获取数据将比单一传感器获得更多的信息。如此一来,只要一个简单的框,就能将车辆的3D激光点云数据自动识别。

 

图片

 

需要适应变化的除了给AI数据服务的AI,还有人才。

 

贾宇航告诉南风窗,“现在,对于标注人员的要求肯定是越来越高,”但是,“符合条件的数据人才并不好找”。

 

如今缺失的,他说,是理解各个垂直领域的专业人才。比如,为了提高时效性,降低错误率,医疗数据需要专业的医学生。但往往,这类人才通常极少从事数据业。

2019年,数据服务平台CrowdFlower也曾做过一组研究。

 

它对大约 80 名数据科学家进行了一项调查,发现数据科学家花费了:

 

60% 的时间用于组织和清理数据;

19% 的时间花在收集数据集上;

9% 的时间用于挖掘数据;

5% 的时间花在其他任务上。

 

数据科学家的大部分时间都花在数据准备,即收集、清理和标注数据上。这其中,57%的人表示,清理和处理数据,是最无聊、最不愉快的任务。

 

而如今,随着ChatGPT带来的AI热潮,“最无聊、最不愉快”的行业也正在起飞。

 

 

 

 

吴 军:ChatGPT不算新技术革命,带不来什么新机会 https://mp.weixin.qq.com/s/LYLbkKRFA0p_DO29KwKLLQ

吴 军:ChatGPT不算新技术革命,带不来什么新机会

吴 军 云技术 2023-04-09 23:45 发表于陕西
元数DAO
聚焦Web3、元宇宙、数字化转型、数字化服务、数字经济、数字政府等,报道行业新资讯、新动态、新风向!
24篇原创内容

 

图片

 

吴军,1967年出生,毕业于清华大学和约翰霍普金斯大学,计算机专业博士,前Google高级资深研究员、原腾讯副总裁、硅谷风险投资人。

 

4月3日晚上,得到直播间邀请到了计算机科学家、自然语言模型专家吴军,就人工智能和ChatGPT等当下热议的话题作了一次直播分享。

 

Q1:

ChatGPT的出现,为什么会引起恐慌?

 

我知道,最近ChatGPT这事儿在中国很火,很多人在讨论,但很有意思的是,其实这件事在美国,已经没有太多人去谈论这个话题了。其实不光是ChatGPT,往前看十年,当时很多新技术出现的时候,我就发现在中国媒体上讨论的热度要远远高于美国。虽然那个技术其实主要出现在美国,但是中国人老百姓对此更关心。我认为这是一件好事,但也是一件坏事。

 

这个“坏”在于,这些技术实际上是被过度的炒作了,在这个过程中,有很多浑水摸鱼的人从中赚钱。就比如说区块链,当时炒得那么热,但如今这个事已经很少有人讨论了,对吧?这是第一个。第二个就是元宇宙,目前美国只有 Facebook一家还在坚持做。那到了中国,很多人就在讨论说,我们是不是将来会生活在一个完全虚拟的世界。最后,大概去年底到今年初,Facebook在这个领域几百亿美元投下去,一个响也没听着,最后开始了大规模的裁员。到了现在,被热炒的一个话题就是ChatGPT,有的人兴奋,有的人恐惧,还有我现在也看到在中国还有很多人在浑水摸鱼,试图再割大家一次韭菜。

 

在讲ChatGPT是什么以前,我先给大家讲一个历史故事,这历史故事你听起来你就会发笑,但是你回头看,今天很多人的表现也是如此。

 

1503年,哥伦布的儿子记下来的这么一件事儿,哥伦布往西航行,去往新大陆,结果航行到中途,到了牙买加这个地方,船上就没吃的了。于是,哥伦布和船员只能寄希望于当地人来提供饮食。但是,提供了几天以后,船员就跟当地人发生了矛盾——有些船员偷了当地人的东西,所以当地人就断了饮食的供应。


为了摆脱这个困境,哥伦布想到了一个妙招。哥伦布当时随身带着一本万年历,在日历上标着说某年月日会出现日食、月食等等所有这些信息。哥伦布当时就把当地的部落首领找来,说你们不给我提供食物,已经得罪了上帝,上帝会发怒,月亮就会变红,然后上帝就会把月亮收走。

当然,我们现在基本上都知道,在月全食发生的时候,也就是地球还没有完全挡住月亮的时候,月亮确实是红的,就是我们所谓的“血月”。但是,当时的牙买加人并不知道。结果,到了晚上,牙买加人就发现,月亮果然变红了,然后慢慢地就一点点消失了。当地人就陷入了恐慌,大家纷纷说,上帝要惩罚他们了。

 

这个部落首领慌忙去求哥伦布,承诺答应哥伦布的所有条件。哥伦布就说,好,我去帐篷里向上帝祷告,让他不惩罚你们,但是我需要一点时间,然后哥伦布就走进了帐篷。其实,进了帐篷之后,哥伦布就是拿着一个沙漏,在看那个计时。

 

今天咱们有天文学知识,肯定知道月全食的时间,也就会维持大概48分钟,到时候月亮就会重新出现。但是,这些牙买加人不知道。他们看到的就是,哥伦布从帐篷里出来,月亮也就出来了。然后哥伦布说,这是上帝已经听了我的劝解,答应宽恕你们,但是你们必须要给我们好好地提供食物。所以,当地人千恩万谢,给他们不断提供食物。


这个故事说明什么呢?月全食这件事,它的发生背后自有其原因,但是在人们不知道这个原因的时候,往往只能把这个自然现象归结为一个神的作用。而这个神,本身又是人创造出来的。也就是说,人自己创造一个神以后,然后趴在神的脚下,成为了他的奴仆。

 

这就是我为什么要给大家开《世界文明史》的课程。

 

其实这个文明的发展过程,就是人类不断认识自然规律的过程。我们一点点的进步,为的就是让现在的我们不再像当地的土著人那样,盲目地相信一个人向上帝祷告真的可以阻止月亮消失。我们现在知道,在日食月食的背后,实际上是开普勒行星的三定律在起作用,然后在开普勒行星三定律背后是牛顿的万有引力定律。人类搞清楚这个原因以后,对自然就不再仅仅是畏惧了,我们可以利用自然规律做很多很多事情。

Q2:

ChatGPT的技术基础是什么?


从历史回到现在,其实ChatGPT的情况也差不多,背后是一个叫做语言模型的一个数学模型在发挥作用。换句话说,ChatGPT的背后是一个数学模型。在今天,这项技术显得很强大的原因主要是三个:

 

第一,它用到的计算量很大;

 

第二,它的数据量很大;

 

第三,今天训练语言模型的方法比以前要好很多。

那么,语言模型是什么呢?或者说它是一个什么时代的产物?

 

它是1972 年,由我的导师贾里尼克(Fred Jelinek)带领团队研发的一项技术。具体地讲,是他当时在IBM带着人来完成的一项技术,是用来衡量一句话或者一个语言现象有多么的可能产生。那它有什么用?它最初的用处是做的语音识别,后来是做机器翻译,再后来是做计算机问答,也就是我们今天熟悉的回答问题。

 

当时它就可以做摘要,比如举一个例子,有一篇一万字的文章,那么你怎么摘要出十句话能概括这一篇文章的内容,这对于做这个自然语言处理的人来讲,就是一个数学问题。也就是说,你的条件是什么?条件是这一万个字,然后你想得到的结果是什么?结果可能就是十句话,一百个字。然后这里头有很多种组合,你可以随便挑几个句子,也可以把有的句子拆成两段,把后面那些不太重要的修饰或者形容的部分去掉。然后,你也可以把两个句子合成一个句子,那么你在合成一段文本的时候,这个计算机就会计算一个概率,哪些句子合成在一起的概率比较大,它会按照概率帮你合成。

 

而我们今天看到的ChatGPT,就是这个大的语言模型,它就是会挑一个概率最大的、最有可能发生的这样一个文本来给你看。所以总体来讲,ChatGPT生成结果的过程,是一个用大量的计算资源来计算的过程。它需要非常庞大的数据量来支撑,有很多很多的GPU(电脑处理器)。没有这些东西的话,ChatGPT是做不起来的。

 

而且今天这个ChatGPT,其实不光是技术,还有很多人工在背后。他们还雇了一家公司,专门负责审核ChatGPT产生的结果。比如说,ChatGPT产生了一百篇摘要,都挺好,我已经分辨不出来了,那么这些人就负责帮我分辨一下,到底哪一篇更像是准确的摘要。

 

那实际上,你可以看到,ChatGPT背后就是一个语言模型,而这一语言模型的技术是1972年就已经有了的。到现在,经过了五十年,现在行业内其实大家并不觉得它是一个什么了不得的东西。在此以前,这个语言模型其实已经做了很多的事情。

 

提到“语言模型”(language model)这个词,最初是由我的导师贾里尼克提出来的。他大概在1993年的时候到了约翰霍普金斯大学,我是1996年到这个大学,然后成为他学生。那么这个词的中文,也就是你看到的“语言模型”这四个字,则是我在20世纪90年代的时候发表论文时候创造出来的。那时,只有我们这些圈内的人知道它能做很多事,但是你不会想到说,哎,这个事后来会被热炒。

 

你可以这样理解,“语言模型”之于ChatGPT,就相当于开普勒的这个行星三定律之于月食。

 

Q3:

“语言模型”诞生之初是什么情况?

 

那么在发明的当时,语言模型是一个什么情况?

 

其实,在20世纪90年代的时候,用简单统计方法得到的模型很不准确。这就相当于,我打个比方,你观察行星,但用的是托勒密的地心说来预测,是很不准确的。所以,那时候我们开始引入了语法、主题、语义的很多信息。然后,这个语言模型就变得很复杂了。复杂之后就又带来了一个很大的问题。


什么问题?

 

比如,我当时做过一个很复杂的语言模型,这个语言模型当时有多少参数?600万个参数,就是说,这个语言模型大小基本上按这个参数来定。我那时候做的已经是那个时代能做的最大、最复杂的语言模型了。我当时用的还不是PC机,而是20台超级服务器,然后大概算了三个月才训练出这样一个语言模型。所以你看,它的计算量是非常大的。那么,第一版ChatGPT,它用的语言模型参数是多少呢?大概是 2000 亿个参数,大家可以看到这些年的变化。

所以,今天很多人问,ChatGPT在美国出现了,中国研究机构什么时候能做ChatGPT?其实,中国的大部分研究机构是做不了的,不是说研究水平的问题,而是因为ChatGPT太耗资源。今天的ChatGPT,可能光硬件的成本就要差不多10亿美元,这还没算电钱,所以成本和耗资是非常巨大的。所以,如果开完玩笑,问ChatGPT的最大贡献是什么,我倒觉得它对全球变暖是有很大贡献的。

所以,我想说的是,ChatGPT这件事,它的原理很简单,但是在工程上要想做到,其实是蛮困难的一件事。

 

Q4:  

计算机擅长回答什么问题?


到了大概2010年前后,也就是13年前,语言模型能做到什么程度?我给大家看两个例子。这两个例子都是我在2014年离开Google以前做的。当时我负责的是Google的自动问答系统,就是让计算机回答问题。不过因为这个产品是英文的,所以在中文世界基本上没有太露脸。


我给你看一下谷歌回答的一个问题——为什么天是蓝色的,why is the sky blue?

 

图片

 

它的回答是这样的:太阳光透过大气层到达地球时会发生折射,空气中的气体会让不同颜色的光散射到各个地方,蓝光波长短,比其他颜色折射率高,所以看上去天是蓝色的。

 

这是当时计算机产生的一个答案。公平地讲,这个答案比我自己写一段答案写得要更好,因为要解释这现象,你要知道不少物理学知识,而且这个句子看上去也挺合情合理的。而今天人们使用ChatGPT的一个目的,就是让他回答问题。

 

这里面,我给大家做个拆分。

 

其实,我们问计算机的问题可以分为两类,第一类叫做简单问题,第二类叫做复杂问题。简单问题就是关于事实的问题,比如某某明星是哪儿人,哪一年生的。这都是一些容易的问题,因为它是事实,有明确答案。

 

第二类是复杂问题,这也是大家觉得 ChatGPT 非常惊艳的地方。它能整合信息,回答天为什么是蓝色的,好像它自己有逻辑一样。再有一个,就是问过程的问题,比如说我怎么烤蛋糕,你能不把一步步写下来?今天我们问ChatGPT怎么烤蛋糕,它可以把这个过程给你写得很详细,多少杯水,加多少个鸡蛋,加多少面粉等等,它都可以告诉你。然后你根据它提供的答案,就真能烤出蛋糕,而且烤得可能还挺不错。

 

这是大家觉得很了不得的地方。但是你要知道,这件事,在2014年其实计算机已经做到了,而且做得很好。所以,这项技术本身并没有太多神秘的地方。

 

Q5:

计算机和人,谁更擅长写作?

 

现在,大家热议ChatGPT,还有一个原因就是觉得它能写作。比如说写一个工作简报,这是今天美国人用ChatGPT用得最多的地方。我这周干了1234567,这七件事,哎,你看我就不用自己费劲地写了,我让ChatGPT生成一个,然后再编辑一下子就可以了。

 

但是,计算机写作这件事,其实你说难也难,说容易也容易,我可以给你举个例子。

 

在2014年我离开Google之后,当时不太做编程了,不过那时候我还有一些计算资源,所以我自己在空闲时间会写一些程序,做着玩。当时呢,我就让计算机写了两首诗,大家可以读一下这两首诗。

 

图片


第一首诗是个五言诗,这是用我的话说,叫做李白风格的一首诗,大家可以读一下。这首诗就是计算机自己写的。实际上,你如果读一读,这个诗里还真有一些李白的这个特点。

 

那第二首诗,我也把图片放在下面了,你可以看一下。

 

图片

 

先说一下,因为古诗都有平仄一说,但是我们现在的读音和当时的读音不一样,所以我们也没去管这个平仄到底合不合古,但是这个我们单从它的内容意境来讲,你读的会觉得很顺畅。

 

好,那么话说回来。第一首诗怎么做的?

 

其实再简单不过了,你就把李白的诗放到计算机里。李白诗一共1000 多首,也就一万来句话,这个对计算机来讲太简单了。它写的时候,就是把句子分拆开来,拆成两个字、三个字一组,比如“空愁”这是一组,“忆长安”这三个字一组。然后它就去拼刚才我讲的语言模型,算概率,哪个概率最大;拆完了以后,我就跟他提一个要求,说要写一首忆长安的诗,它就排列组合,生成出这个《忆长安》,实际上就是这么拼凑出来的。第二首诗稍微复杂一点。

 

但你知道这两个程序我写了多长时间?两天。这说明什么呢?说明你让计算机写出一些还挺像样的东西,其实不是一件很困难的事情,它没有你想得这么神秘,或者说计算机写作本身没有这你想得这么神秘。

 

那为什么这两首诗看起来特别好?因为这是唐诗,唐诗的格式是固定的。同样的道理,为什么用ChatGPT写周报写得好?因为周报的格式基本上是拉清单,那也是个固定的格式。包括,如果你读《华尔街日报》中文版,这里头我跟你讲,90%的内容都是计算机写的,只是你不知道。写完了以后人当然要给它一个主题,然后给它写的第一段话写个引子,然后给一个总结,起个标题,这是人要做的。

 

为什么写财经文章比较好?因为它有好多的事实在里头,格式也是固定的,所以这件事它做起来就很好。

 

我花这么长时间来讲ChatGPT的背景,实际上就是想说它并不神秘,不是一个什么很高深的机器在背后。一方面,ChatGPT依靠的是一个数学模型,而这个数学模型1972年就有了,只是今天它的计算能力非常强,靠蛮力计算。

 

那么,ChatGPT训练一次要耗多少电?大概可能是3000辆特斯拉的电动汽车,每辆跑到20万英里,把它跑死,这么大的耗电量,才够训练一次,这个非常花钱的一件事。

 

Q6: 

ChatGPT对我们到底有什么影响?

 

那么接下来讲讲,ChatGPT对人有什么影响。

 

这就要回到历史上来看了,每一次技术革命,其实它对人都会有一些影响。不过,ChatGPT它不算是一项新的技术革命,因为这我刚才讲了,这个过程很长,从20世纪70年代到90年代,我们做了很多事,90 年代到现在又有很多人做了很多事。这里头最大进步其实不是这个语言模型本身,实际上是后来2000年左右产生的深度学习,使得训练语言模型能比以前准确了,不是简单的做统计。

 

今天训练语言模型早已经不是简单做统计了,这才是ChatGPT能产生比较好的结果的一个原因。

 

至于说ChatGPT对人能产生什么样影响,这个问题我先不直接回答你,我先问你,刚才给大家看这两首唐诗,你有没有发现一个什么特点?对了,这两首诗写得不错,但是你原来对唐朝了解,不会因为多了这两首诗会有更新的了解。因为,ChatGPT它某种程度上有点像鹦鹉学舌,你先要说一段话,它才能跟着学。它说出来的声音可能很好听,但是它并不提供更多的信息。


今天互联网上90%的内容都属于这一类——不提供更多的新信息,也不是原创内容,也不是自己的感悟,无非是东抄抄,西凑凑。目前,抖音、快手这类短视频,我觉得99%的内容都属于这一类,没有营养,你读完以后可能觉得挺有意思,但实际上你在上面读了再多,其实对你没有任何帮助。

如果说ChatGPT真的威胁到了谁,我觉得威胁到的就是这一类人的工作,就是说这个抖音上头那个做短视频的,或者发布一些内容的,ChatGPT会做得比他们好很多。你就想这样一件事儿,假设说,有一群人天天把那唐诗三百首里头的句子翻来覆去的捯饬,也能捯饬出一些诗,那么ChatGPT捯饬起来肯定比人快得多,所以这项技术会对这一批人会有影响。

 

那么,什么人不会受到影响?就是内容创造的人不会受影响。

 

为什么我会这么讲?还记得刚才我说的“为什么是天是蓝色的”这个问题吗?Google为什么能回答这个问题?

 

因为在Google进行回答的时候,它大概把当时英语几乎所有的像样的句子都做了分析,大概有1000 亿句英语句子。那么实际上你会发现,在一些大学的网站上和NASA的网站上,它就有这个答案,只是我们把它拼拼凑凑,删删减减,就把它挑出来了。但是最早的物理学家做这项研究,把这个道理搞清楚,这个工作是有意义的,也是ChatCPT取代不了的。

所以,ChatGPT的工作相当于什么呢?举例子,托勒密创造出这个模型以后,那么每过一段时间,他们欧洲就会编一个大概几十年的一个日历,然后上面标上哪天有日食,哪天行星会怎么运动等等。那么人们根据这些规律,印好多本这个书,这个ChatGPT就相当于有好多本书,你拿着以后一看,说,喔,某年月日会发生月食,答案就会很清楚。但是,背后真正有意义的工作不是印这个书,而做托勒密的那个研究。

所以我认为,从历史上看ChatGPT其实不算是一次技术革命,它影响到的都是那个比较懒的人,懒得动脑筋,创造新东西的人。真正探索人类知识奥秘的人,是不会被取代的。

Q7: 

ChatGPT能带来什么新的机会?


很多人问说,ChatGPT有什么新机会?坦率来讲,你没机会,因为太耗资源了,你耗不起。那么什么人能够受益?那就是卖资源的这些人。

 

我可以打个比方,就是说在这个加州淘金热的时候,很多人蜂拥而至,去淘金,单我们到今天为止还不知道哪一个淘金者真的挣得着钱,没一个人把名字留下来。但是最后谁挣着钱了?是卖水的人和卖牛仔裤的人。ChatGPT也是一样的道理。大家跟着一起去淘金,其实你是挣不着钱的,但是在过程中,你还不断地要买水喝,买牛仔裤穿,最后就是这两拨人挣到钱了。李维斯Levi's,就是那时候产生的这么一个公司,它就是做牛仔裤的。

 

那么最后你可能是给几家大的做云计算的公司在交钱,这可能是一个结果。

好了,讲完了这个ChatGPT的历史,我给你做一个简单的总结。

 

第一,不要恐惧。

 

今天是很多人恐惧ChatGPT,就如同不要像当年哥伦布遇到的牙买加土著人恐惧月食,一样的道理。

 

第二,不要勉强去找所谓的机会,该怎么工作就是怎么工作。

 

我看有同学问我,说苹果为什么这个不做ChatGPT,我说这就对了!这就是为什么苹果是世界上最有钱的公司,利润最高,市值最多。目前,很多所谓做这种人工智能的公司到现在都在亏钱。所以,这也是为什么很多同学有时候问很多太不着调的问题的时候,我就开玩笑地问他说,你的房贷还清了吗?你要没还清,你就好好回去工作,把工作做好,这才是对大家最有意义的事情,从历史上看也是如此。


第三,你要识破这些所谓的阴谋家或者想割你韭菜的人的那些把戏。

 

就是说,如果再来一个人假装哥伦布说他是神的代表,然后他能祈祷上天能让这月亮出来,你不要信。所以你需要了解ChatGPT背后的一些科学原理。最简单的一些原理,像今天我讲的这些,你还是需要有所了解。

 

来源:學人Scholar

 

 

posted @ 2023-04-10 00:38  papering  阅读(84)  评论(0编辑  收藏  举报