人工智能前沿与产业（一）

人工智能发展的必要条件：数据运算能力算法

数据和运算能力的提升导致人工智能的爆发

电脑和网络-人类数据每年增长50%

摩尔定律-运算能力每1.5-2年翻番

低技能大数据量的工作将很容易被替代

嵌入式人工智能：从边缘开始的革命不是在云计算或者数据中心而是在互联网的便于那

趋势1新摩尔定律现在不是按照每个单位面积上晶体管的数目，而是架构的改进，使得计算机由逻辑运算向人工智能演进。

趋势2从中心到边缘未来移动设备也会需要AI

趋势3边缘的竞赛更快更高更强

做AI离不开场景

蚂蚁金融是技术驱动金融生活，将智能的技术赋予于各条业务线和各种应用

场景一边带来数据，一边带来有价值的服务

在数据强相关的领域人工智能能发挥更大的作用金融领域的保险理财智能客服

金融需要一个大数据多一个维度的数据会得到很多特征，把这个东西做的更准确

智能驾驶

无人驾驶在人工智能领域十分火热，可能是最大，最有前景的几个方向之一

智能驾驶的缘由

1 堵车导致交通事故，违规驾驶等因为交通事故失望人数较多

2 停车难

想要解决以上问题只能依靠智能驾驶这个问题本质上是因为车太多了

智能驾驶可以减少私家车的数量，出租车更换为自动驾驶汽车根据大数据运算分布在城市各个地方降低打车成本

而且未来的新能源会比如今的燃油成本更低，空驾驶的时间也会减少

出行是相当刚性高频的需求

智能驾驶的AI技术有三样

1 新司机懂得矫勇规则，能够保证不去撞车和撞人感知和认知的理解部分

2 认路的司机在任何情况下都不会迷路地图和定位

3 老司机开车开得非常好，有竞争性碰到新情况也不慌认知的决策部分

感知和认知的理解部分

在一开始是利用的激光雷达但是价格较贵，其他的解决办法是基于视觉以及毫米波雷达超声波等辅助传感器

如今商业化最成功的的特斯拉，是利用主传感器的单目摄像头毫米波雷达 12个超声波传感器但是这个是有缺陷的视觉会受到光照的影响而且还和算法有关数据库里的障碍物必须先去识别他才能够探测这个数据库必须足够完善

我们的解决方案是重新回到几何世界通过摄像头构建几何世界，用一团点云去识别静态和动态障碍，点云呈现暖色调代表障碍物离我们较近，呈现冷色调，代表理我们比较远。不需要去识别障碍物，但是必需去了解这里有障碍物；或者通过更好的计算机视觉，即语音分割通过更好的分割方法去发现障碍物这就要求

训练模型必须要有足够多的数据，才可以更精确。收集数据之后如何进行标注小数量的可以众包请人标注大数量的可以通过机器学习做半自动标注，即让机器学习去标注或者通过预训练

预训练是一种迁移学习的表达方式没有标注的数据可以从其他里领域迁移过来，也可以在线学习通过自监督学习进行标注

还有一个是嵌入式的部署，要考虑实时性，模型大小，计算量等

认路的司机应该如何去做

需要地图和定位，传统上选择XJBD方法。首先我们需要的是一个高精度定位的系统叫做RTK，依靠卫星定位，地面基站，多个天线做差分计算，去获得厘米级定位精度；再加上XJBD通过打乱仗的方式解决定位问题，在环境中粘贴二维码，通过二维码的大小和形状了解相对的距离和角度；我们为了防止信号在不同的时间地点的跳跃度的问题需要有一个视觉里程器，记录图像帧与帧之间视觉特征点发生的位移。

还可以通过SLAM（同步的建图和定位），它是基于视觉质量技术，受限于在环境中发现特征点特别是四周都是白墙的更为困难，其次多传感器融合，对融合算法有更高的要求，也需要进行很多探索。

老司机要做什么

要更好地和判断路上的态势去评估这些可能是人或者动态的物体，评估他的动机预测他的行为，去竞争合理的或得道路的使用权

传统的监督学习是不够的，监督学习是给予一个状态对他进行预测，对外界环境不会有影响，但是实际开车的时候必须与外界环境进行互动。

我们要采用比较通用的强化学习的方法实现与环境的互动，未知情况的处理是很重要的，把人工智能分为四个象限：虚拟世界实体世界非关键任务关键任务

自动驾驶的代码量数据随机算法机器学习都很难而且机器学习意味着根据训练集学习出一些东西，训练集不好，效果就不好

对抗：人眼看不出区别和差异，但是机器学习认为像素不同东西就不一样深度学习还需要和背景知识和常识结合，还需要和迁移学习结合起来

ABC A是AI，B是大数据，C是云计算。实际上更多的是CBA，现有产品导致的云服务，然后才有可能产生big data，之后才有人工智能。

人工智能的三大前提：产品+大数据+机器学习

当有了海量的数据之后，而且这个数据的来源很广泛，就可以产生一个非常完整的用户画像。

第一：深度理解用户，理解用户时，可以用机器计算补充用户未告知的信息。

第二：用户真实性，用机器学习判断用户的真实性

生命本身是一个人工智能的学习程序。学习的核心是DNA

脱氧核糖核酸的j服务第一项：筛查出生缺陷第二项：传染源检测第三项：个性化用药技术已经发展到可以简单地拷贝克隆和基因合成编辑基因技术

如果了解一个瓢虫的捕食行为，可以建立一个硅基世界的人工智能的网络，通过数字化模拟现实世界的瓢虫行为，把input都输入，最后把训练结果交还给他，硅基世界会越来越像碳基世界的。碳云要做的事情就是懂生命，把硅基里学习系统进行输入输出的数字化。

碳云智能基于三个基本假设：生命可以数字化的；生命是可以被计算的；生命是可以被网络化的。

生命科学有三个阶段：第一阶段叫做观测科学（数叶子），不断去观察科学，提出一些理论，做出一些东西，进行试验验证，后来是拟人生物学，计算机用数学来描述生物学。

生命科学取决于问题的复杂度和差异性大小算法本身的不同，所依据的数据量就不同，一个单基因病的研究，需要一个家系就可以，但是糖尿病这种可能需要10万人。差异性小的就需要大量的样本才可以找到区别。

通用人工智能主要强调具备人一样的多重智能行为，包括感知、决策、推理和规划，以及交流和沟通。最重要的是学习能力，包括：渐进学习、自主学习和交互式学习。

渐进学习：在不断学习新知识时，可以将老知识应用到新知识的学习中；

自主学习：人从小所受的监督学习较少，更多的是与环境接触之后，不断自主学习；

交互学习：通过交流来学习。

早几年主要是在特定领域的人工智能迅速发展，因为计算能力的提升巨大再加上深度学习的广泛使用。在特定任务的人工智能领域，语音识别运用了深度学习在语音搜索任务芳年错误率已远低于人类，在人脸识别的跨时间段识别人脸也是比较好的

但是机器学习也有很大的缺陷

一缺乏创造力和自我学习能力，当自动驾驶在不同地方左行还是右行不同时，需要进行重新训练，重新收集数据，而人类只需要稍微注意一下就可以

二很难通过少量的标注数据学习

三缺乏常识性遇到没见过的场景，机器就不知道怎么做

四大量学习是通过标注的数据学习，未来希望机器利用自然语言做事，并通过自然语言反馈我们关注构架虚拟的学习环境，让机器在简单地虚拟环境里学习语言有组合性

自然语言处理

自然语言：计算机将所说的语言反映到计算机内部表示或者基于行为，你说一句话，计算机做出相应的行为。

自然语言的五个特点使得计算机实现自然语言处理很困难：（1）语言是不完全有规律的，规律是错综复杂的。语言有功能冗余、逻辑不一致等现象但是他也有一定的规律yuya语言（2）语言是可以组合的，语言的重要特点是能够将词语组合成句子，能够组成复杂的语言表达；（3）语言是一个开放的集合，可以任意发明创造一些新的表达。语言本质的发明创造就是通过比喻扩展出来；（4）语言需要联系到实践知识；（5）语言的使用要基于环境。在人与人之间的互动中被使用。

本质原因是因为目前在计算机上去实现东西一定需要数学模型，而语言的使用不清楚是否能够用数学模型去刻画。

自然语言处理的第一件事情是把问题简单化：分析问句，检索相关的知识或者信息，然后产生答案。自然语言处理的发展中发现，目前最好的方法就是机器学习包括深度学习。基于机器学习，并在一定程度上把人的知识加进来，并参考人脑的机理，从而构建更好的机器学习办法。

人工智能领域都形成了一个闭环机制，开始有一个系统，然后用户产生大量的数据，之后基于数据，开发出更好的机器学习算法，使人工智能系统的性能能够不断提升。

目前所有的自然语言处理的问题可以分类为五大统计自然语言处理的方法或者模型：分类、匹配、翻译、结构预测、马尔可夫决策过程。主要是采用统计机器学习的方法来解决

分类主要有文本分类和情感分类

匹配主要有搜索、问题回答、对话（单轮对话）；

翻译主要有机器翻译，语音识别，手写识别，单轮对话；

结构预测主，有专门识别，词性标注，句法分析，文本的语义分析；

马可夫决策过程可以用于多轮对话。

自然语言处理，在一定程度上需要考虑技术上界和性能下界的关系，现在的自然语言处理最本质的是用数据驱动的方法去模拟人，通过人工智能闭环去逼近人的语言使用能力

问答系统大量的知识或信息放在知识库，把问答用FAQ索引起来，如果来了一个新问题，有已索引好的FAQ，去做一个检索（字符上的匹配），对候补做一个排序。

我们在在线的时候要做匹配和排序，现在最先进的技术都是用机器学习，用深度学习技术。就是把问句和回答的可能的候选，用向量来表示，问句的每一个单词都可以用向量来表示。每一个词的语义都可以用一个实数值向量来表示，问句和候补都是实数值向量的序列。然后，用一个二维的卷积神经网络来判断两句话在语义上是不是相关，候选是否是很好的答案。通过二维卷积神经网络，可以判断两句话里面哪一些词语，词组是可以相互对应，最后可以做一个判断这两句话是不是相关的。整个模型的学习通过大量的数据、句对，去训练。如果卷积神经双络的参数学好，就可以判断任何给定的两句话是不是能够构成一轮问答。

因为深度学习的出现，可以跨模态的把文本和图片联系出来。训练这样的模型可以根据人们对照片的描述，查找一个图片的内容。

自然语言对话是用另一种技术，用生成的模型去做自然语言对话。输入一句话，里面准备大量的FAQ，搜索一个最相关的回答反馈给你。（基于检索的自然语言）

机器学习，序列对序列学习，每个单词用一个实数值向量表示（编码），之后将实数值向量分解成一个回复中的一句（解码）

真正的对话翻译还很困难，而且序列对序列的典型问题是长尾现象，不常用的单词、意淫识别、翻译还做的不是很好，特殊的专业术语和地名人名专有名词识别率降低。同时多轮对话技术还很困难，因为多轮对话的数据不够，不能很好地去学习这种模型。

语音到文字文字到语义 response知道说什么再给一个有效的反馈

人工智能和大脑研究肯定是相辅相成的

自然语言研究中有很大一部分是知识库，尝试建立一个知识表达。在这方面也要对结合应用进行关注，做通用的知识库是很困难的，但是我们可以做一些领域知识库，用应用、数据去驱动看神经和符号的结合。

自然语言要是想和具体业务结合的话，要去判断做的NLP系统其性能能达到的上界，和你面对的需求所要求的的性能的下界，是否可以配上，如果未来的技术发展可以使上界提高到满足或者下界超过需求下界的水平就可以结合实际应用。

滴滴作为一站式多远的出行平台，滴滴能够提供多元化的出行工具，连接司机和乘客。

滴滴可以提高小汽车的使用率，增加就业机会，减少环境污染，解决出行问题

实时把整个城市的交通数据整合到一块，实时地做智能的决策。

ETA：预估出从A到B大概需要多少时间，根据历史和实时的一些特征来预测，是一个机器学习问题

智能分单：乘客发单，智能搜索，选择最近的司机接乘客，要做实时的匹配

预估价：距离和时间决定，距离要做路径规划在预估出A到B的时间，预估要约精确越好。

用户地点预测：极大提高用户出行体验，不需要输入目的地点击一下发单就可以

派单是滴滴对核心的一个模块，因为有一大批乘客和一大批司机，要做最优的匹配

对于快车而言，最早是抢单：把每个司机周围的订单都拨给他，司机自己去选；然后是智能派单：一对一匹配，matching的精度更重要了

在匹配度方面最早期使用的是直线距离，后来应用路面距离（实际开过来的距离）

评估匹配的好坏，需要两个核心的算法：路径规划和ETA（实时的搜素，每两秒钟做预测）更有效的分单还要考虑未来，找到未来一段时间收益最大化的最优解涉及到供需预测。

第一点：出行需要各方面的合作，各方面把数据打通，整合起来才能发挥更大的价值

第二点：智慧交通，数据整合之后解决实际的交通问题，比如红绿灯，城市的规划建设

第三点：智能交通，网联车，车与车相连，车和路上的设备也相连，可以更精准的做一些决策

强人工智能：希望能够真正破解人类产生人工智能的奥秘，并让机器实现这一点

弱人工智能：普遍应用在工业界中，完成人的一项任务或者完成一项任务中的一个步骤

目前人工智能工作是因为：深度神经网络、互联网和移动互联网的普及有利于获取真是的统计大数据记忆涟漪效应（软件免费，一小部分人愿意使用，产生说一句，云计算服务器立即学习更新，等人群扩大时，系统的性能已经有所提高了）利用涟漪效应把不熟的、需要在真实环境中训练出来的系统，真正培养出来。

计算机现在对视觉的智能水平和人相差太远，计算机看到视觉里面的语义还提取不出来。弱世界呈现语音交互：通过一个音响、耳机或者手环可以直接跟机器人对话。强世界呈现语音交互：必须看到东西才能完成一次交互，这种非交互在电视或手机跟车上的信息结合在一起，可以解决相当多的人机交互问题。

在涉及语音识别、图像搜索、图像识别方面，人工智能解决的很好，

大数据随物联网崛起，分析、预测、决定全面进入自动化，AI黑盒无法承担重大决策，非重复的任务不知道是否可以让AI去做，复杂决策的涉及面太广，但是AI可以利用其大数据的处理分析能力，可以为我们推荐之得注意或者研究的点，AI+HI是终极智能形态、

对于AI来说云是氧气（计算），数据是水。云和物联网结合之后不用担心计算，也不用担心数据。

现在的AI系统是一个黑箱，不知道里面怎么运作，黑箱与黑箱之间的关系也不清楚。因果关系在统计学中是很难的，如果不是封闭的系统，因果关系完全没有意义。Analysis与decision可以做黑箱，将AI+HI。

大数据可视化的重要的点在于数据是死的，可视化可以让你有一个界面，可以从不同的角度去看，洞察insight，洞察因果关系，然后去证明你的想法。

IBM做医疗，核心是解决一个问题--怎么样利用数据挖掘和人工智能的技术，从海量的医疗数据中间去挖掘出证据，利用这些证据给患者提供循症的个性化医疗服务。如今在医疗方面又热门起来是因为计算机算得快以及有大量的数据了。

Hadoop、Spark（

Hadoop和Spark两者都是大数据框架，但是各自应用场景是不同的。Hadoop是一个分布式数据存储架构，它将巨大的数据集分派到一个由普通计算机组成的集群中的多个节点进行存储，降低了硬件的成本。Spark是那么一个专门用来对那些分布式存储的大数据进行处理的工具，它要借助hdfs的数据存储。

hadoop的MapReduce是分步对数据进行处理的，从磁盘中读取数据，进行一次处理，将结果写到磁盘，然后在从磁盘中读取更新后的数据，再次进行的处理，最后再将结果存入磁盘，这存取磁盘的过程会影响处理速度。spark从磁盘中读取数据，把中间数据放到内存中，完成所有必须的分析处理，将结果写回集群，所以spark更快。

）的并行计算以及硬件的加速发展，使得计算机的处理能力有了性能上的飞跃发展，同事芯片在这个领域计算能力也有突破性的发展。类脑芯片--从神经元的角度做一个芯片，是一个神经元，神经元之间通过神经元的突触把它连接起来，这样的架构天生就是神经网络，可以完成基于神经网络的一些算法。

医疗数据包括：临床数据、基因数据和大健康数据。临床数据：医院产生的数据，临床数据对人健康的影响有10% ；基因数据：与生俱来的数据，对人的健康影响有30% ；大健康的数据：饮食、运动、工作。在社交媒体上发泄的情绪。

目前能做的三件事：1）做一个医疗数据云，存储医疗数据 2）做analytics，如何对医疗数据进行深度的计算和分析，把它变成模型，一些API 3）做解决方案，怎么针对不同类型的医疗领域客户，打造客户能够使用的具体软件和解决方案。

需要解决的两个问题：解决多模态医疗数据的存储问题，有结构化很好的数据、半结构化的数据还有完全无结构化的数据，时间序列数据；安全和隐私问题。

分析层也要做两件事情：对多模态医疗数据的分析，不同的数据使用的分析技术也不一样。分析是与医疗领域相关的，医学里有些特定问题，是分析数据里疾病风险的因素是什么，如何做疾病的预测或预防等等。

真实世界证据就是真实世界中的数据，包括病例数据、医疗保险数据，输入进来，

产出各种模型，这样的模型是通过这样的pipeline得到的。

GPU兴起的原因在于，GPU提供了与之前general purpose computing不同的模式。底层是CUDA,上面是系统，算法和应用。GPU在支撑全新架构的前提下，能够支撑现有的计算力。 GPU与CPU的特点不同，GPU是一个简单地多核处理器，再结合CUDA之后，很有利于做并行运算。深度学习是并行云端很好的应用场景，DNN做具有特征的数据识别，有良好的效果，前层的layer是后层的浅层表现，带有pattern的语音、图像数据能够分类。GPU承担每一个深度神经网络节点的计算，GPU是线下训练的唯一选择。

深度学习包括连个部分：线下的训练（在云端或者加载GPU的服务端做训练）和线上推理。八载线下训练好的模型放到线上去做推理

深度学习适合三类数据：coputer vision数据，语音数据，自然语言处理数据

深度学习的机会：健康医疗、零售（选完商品自动识别不用结账，商品取下后，可以自动补货）、金融、安全、loT（机器人、无人机公司）、无人驾驶、网络安全。