读AI未来进行式笔记01深度学习

1.       AI

1.1.         AI已经发展成一门涵盖许多子领域的重要学科

1.2.         机器学习是迄今为止AI应用最成功的子领域

1.2.1.           在这个领域中,最大的技术突破就是深度学习

1.3.         “人工智能”“机器学习”和“深度学习”的时候,可能不会把它们的概念区分得那么清楚,有时候,这几个词会被混用

1.4.         2016年,基于深度学习技术开发的围棋棋手AlphaGo击败了韩国棋手李世石,令世界为之震惊,而深度学习也借此彻底点燃了人们对AI的热情

2.       深度学习

2.1.         第一篇阐述深度学习的学术论文发表于1967年

2.1.1.           这项技术却花了近50年的时间才得以蓬勃发展,之所以经历了这么长的时间,是因为深度学习需要海量的数据和强大的算力,才能训练多达几千层的神经网络

2.2.         如果把算力比作AI的引擎,那么数据就是AI的燃料,直到最近10年,算力才变得足够高效,数据才变得足够丰富

2.2.1.           如今,智能手机所拥有的算力,相当于1969年美国国家航空航天局(NASA)把尼尔·阿姆斯特朗送上月球时所用电脑算力的数百万倍

2.2.2.           2020年的互联网数据量几乎是1995年时的1万亿倍

2.3.         受人类大脑内部复杂的神经元网络的启发,深度学习模拟生物神经网络,构建出包括输入层和输出层在内的人工神经网络,当将数据输入该网络的输入层后,在输出层就会显现出相应的处理结果

2.3.1.           中间层

2.3.1.1.            又称隐藏层

2.4.         尽管深度学习的最初灵感来源于人类的大脑,但二者的运作方式截然不同

2.4.1.           深度学习所需要的数据量远比人脑所需要的多得多

2.4.2.           一旦经过大数据训练,它在相同领域的表现将远远超过人类

2.4.2.1.            尤其是在数字的量化学习

2.4.2.1.1.             挑选某人最可能购买的产品
2.4.2.1.2.             从100万张脸中挑选最匹配的一张

2.4.3.           人类在同一时间内只能把注意力放在少数几件事情上面,而深度学习算法却可以同时处理海量信息,并且发现在大量数据背后的模糊特征之间的关联,这些模糊特征不仅复杂而且微妙,人类往往无法理解,甚至可能不会注意到

2.5.         没有这些外在的人类规则,深度学习的效果其实会更好

2.6.         深度学习的训练方法是,针对特定的应用场景,给人工神经网络的输入层“投喂”大量数据样本,同时给输出层“投喂”相应的“正确答案”,通过这样的训练,不断优化人工神经网络的内部参数,使根据输入生成最接近“正确答案”的输出的概率最高

2.6.1.           在训练过程中,可以将深度学习视为解决目标函数最大化问题的一种数学运算

2.6.2.           目标函数是由每次的训练主题决定的

2.7.         人工神经网络的训练是一个数学处理过程

2.7.1.           通过不断调整网络中的数百万个参数(有时甚至是数十亿个参数),来最大限度地提高“只要输入有猫的图片,就输出‘有猫’的判定”的概率,以及“只要输入没有猫的图片,就输出‘无猫’的判定”的概率

2.8.         深度学习几乎在任何领域都能发挥识别、预测、分类、合成的作用

2.9.         在借助大量数据进行训练时,深度学习可以针对每一个用户提供定制化的服务——基于海量数据中较相似用户的数据,对每个用户做出贴切的预测,以达到千人千面的效果

3.       人脑和AI“脑”的差别和擅长

3.1.         深度学习的能力非常强大,然而它并不是“包治百病”的灵丹妙药

3.1.1.           不具备人类在面对决策时独一无二的汲取过去的经验、使用抽象概念和常识的能力

3.2.         与人类相比,深度学习想要充分发挥作用,离不开海量的相关数据、单一领域的应用场景以及明确的目标函数

3.2.1.           这三项缺一不可,如果缺少其中任何一项,深度学习将无用武之地

3.2.2.           如果数据太少,AI算法就没有足够多的样本去洞察数据背后的模糊特征之间的有意义的关联

3.2.3.           如果问题涉及多个领域,AI算法就无法周全考虑不同领域之间的关联,也无法获得足够的数据来覆盖跨领域多因素排列组合的所有可能性

3.2.4.           如果目标函数太过宽泛,AI算法就缺乏明确的方向,以至于很难进一步优化模型的性能

3.3.         图

4.       行业的应用

4.1.         互联网行业的领头企业成为AI技术的第一批受益者也就不足为奇了

4.2.         在互联网之外,深度学习触手可及的下一个行业是金融业

4.2.1.           拥有单一领域(保险业)海量的高质量数据,而且这些数据都与业务指标紧密相连

4.2.2.           通过对海量数据进行学习,实现更好的财务成果(基于用户信用评级降低违约率)、更高效的即时交易(借助AI和应用程序),以及更低的成本(无须人工)

4.3.         AI还有一个非常有趣的优势,就是数据越多越好,数据越多元化越好

4.3.1.           通过不断搜集数据(包括那些让人类专家大跌眼镜的稀奇古怪的数据),AI可以做出更精确的判断,从而创造更多的利润

4.3.2.           所有这些信息都会成为证据,说明很多关于你的情况,包括你身为投保人的相对风险,而这些数据都可以通过你的手机应用程序来获取

4.3.3.           在这些信息中,有的一看就是价值很高的,有的看起来价值一般,但是深度学习的强大之处就在于它可以在所有信息的特征中找到微妙的组合,对组合特征中丰富的有价值的信息做更深层的洞察,而这个过程是人类无法理解、无法做到的

5.       深度学习的问题

5.1.         深度学习会使AI比你更了解你自己

5.1.1.           AI也会掌握你的缺点

5.1.2.           奈飞平台2020年的高分纪录片《智能陷阱》就展现了AI个性化推荐如何让人们在无意识中被操纵,使AI应用程序背后的利益方达成目的

5.1.2.1.            如果人们对AI的个性化推荐上瘾,这类应用程序就可能缩窄人们的视野、扭曲事实的真相、加剧社会的分化,对人类的情绪、心理健康、幸福感等方面造成负面影响

5.1.3.           信息茧房

5.1.3.1.            你在手机上的每次点击都会激活价值数十亿美元的超级计算机,它会根据从20亿用户的行为中学习到和提取到的经验,对准你的大脑,企图左右你的思维

5.1.4.           AI所训练的目标函数通常针对的是单一目标,例如赚钱(或者更多的点击量、广告),因此,AI有可能过度热衷于企业的目标绩效,而不考虑用户的福祉

5.1.4.1.            一种通用的方法是让AI的目标函数变得不再单一

5.1.4.2.            设计目标函数时需要考虑人类的福祉,并让人类更大程度地参与数据标注和目标函数的设计

5.1.4.3.            不仅需要对AI的复杂目标函数展开更加深入的研究,而且需要对“所花费的有意义的时间”“维护社会公平”“幸福”等概念进行量化

5.1.5.           解决方案

5.1.5.1.            一种方法是制定法规,对某些伤害人类福祉的行为给予处罚

5.1.5.2.            另一种方法是对企业承担社会责任的行为进行评价

5.1.5.3.            一种方法是建立第三方监管机构,监督企业对技术是否有不当使用

5.1.5.4.            特别困难但又特别有效的一种方法是,确保AI技术持有者的利益与每个用户的利益达成100%的一致

5.2.         会使不公平和偏见得以延续

5.2.1.           AI完全基于数据优化和结果优化进行决策,理论上应该比大部分人更加不受偏见的影响,但是,其实AI也可能产生偏见

5.2.2.           倘若用于训练AI的数据不够充分、全面,对某些群体的覆盖率不足,那么就会产生偏见

5.2.3.           倘若训练数据全部收集自一个有偏见的环境,那么数据本身就可能带有偏见

5.2.4.           微软的Tay对话机器人和OpenAI的语言模型GPT-3,都生成过歧视少数群体的言论

5.2.5.           AI可以基于面部微表情精准地推断一个人的性取向,这种AI应用就可能导致不公平和偏见

5.2.6.           萨赫杰的“低种姓”并不是直接标注给AI系统的,而是AI系统通过历史数据和个人特征推断出来的

5.2.6.1.            萨赫杰并没有被直接贴上“达利特”的标签,但因为他的数据和特征与“达利特”高度相关

5.2.7.           如果把带有偏见的AI应用于医学诊断或者司法判定,那么其风险将无法想象

5.2.8.           解决方案

5.2.8.1.            使用AI的公司应该披露AI系统被用在哪里以及使用目的

5.2.8.2.            AI工程师应该接受一套职业道德准则的培训

5.2.8.2.1.             AI工程师应该接受一套职业道德准则的培训

5.2.8.3.            工程师使用的AI训练工具应该嵌入严格的测试机制,以对基于样本比例不公平的数据训练出来的计算模型发出警告或彻底禁止生成模型

5.2.8.4.            应该制定AI审计法

5.2.8.4.1.             这与传统的财务审计或税务审计类似,AI公司被举报后,政府需要派遣专家对其进行审计
5.2.8.4.2.             如果一家公司在AI的伦理道德或者公平性方面多次被投诉,它的AI算法就必须接受审计,以检查、确定其是否存在不公平、偏见或隐私保护方面的漏洞

5.3.         不可解释性

5.3.1.           人类总是能解释人类决策背后的原因,因为人类的决策过程本身比较简单,是基于经验积累得出的规则

5.3.2.           经过海量数据训练而得出的数学方程组,要把这个方程组精确地简化成一个人类可以听得懂的“原因”,基本上是不可能的

5.3.3.           无论是出于法律的考量,还是出于用户的期望,许多关键的AI决策都需要给出一个解释

5.3.3.1.            为了解决这一问题,人们目前正在进行许多相关的研究,这些研究试图简化、总结AI复杂的逻辑过程,或者发明具有可解释性框架的AI算法,从而使AI变得更加“透明”

5.4.         任何强大的技术都是一把双刃剑

5.4.1.           电力可以为人类社会的日常设施提供动力,但如果人直接碰触电,就可能丧失性命

5.4.2.           互联网让一切变得更加方便,但也大幅降低了人对事物的专注力

5.4.3.           所有的新技术都有缺点

5.4.3.1.            历史表明,许多技术的早期漏洞都将随着时间的推移而得到纠正或被彻底解决

5.4.3.1.1.             防止人类触电的断路器
5.4.3.1.2.             查杀电脑病毒的杀毒软件

5.4.3.2.            未来通过改进技术和完善政策法规,将会解决深度学习(乃至AI)所带来的大部分问题,比如不公平、偏见、不透明

posted @ 2024-06-03 06:37  躺柒  阅读(48)  评论(0编辑  收藏  举报