深度学习入门(3)

参考原文链接🔗:https://developer.aliyun.com/article/90565

在前面的小节,我们大致了解了机器学习的形式化定义和神经网络的概念,在本小节中,我们将深入探讨神经网络中的神经元模型以及深度学习常用的激活函数以及卷积函数。

M-P神经元模型是什么?

上一节中,我们介绍了人工神经网络(ANN)的定义,简单来说,它是一种模仿动物神经网络行为特征,进行分布式信息处理的算法数学模型。

神经网络依靠系统的复杂程度,通过调整内部大量“简单单元”之间相互连接的关系,从而达到处理信息的目的,并具有自学习和自适应的能力。

上述定义中的“简单单元”,其实就是神经网络中最基本的元素--神经元模型。在生物神经网络中,每个神经元与其他神经元,通过突触连接。神经元之间的“信息传递”,属于化学物质传递。当它“兴奋”时,就会向与它相连的神经元发送化学物质(神经递质),从而改变这些神经元的电位;如果某些神经元的电位超过了一个“阈值”,那么,他就会被“激活”,也就是兴奋起来,接着向其他神经元发送化学物质,犹如涟漪,这样一层一层地传播。

 

 

在人工智能领域,有一个好玩的派别“飞鸟派”,就是说,如果我们想要学习飞翔,就得向“飞鸟”来学习,即把进化了几百万年的生物,作为“模仿对象”,搞清楚原理之后,再复现这些对象的特征。

神经网络,包括深度学习,都在某种程度上,属于“仿生派”,它们在模拟大脑神经元的工作机理。模仿神经元的“飞鸟”实例,就是“M-P神经元模型”。

在这个模型中,神经元接收来自n个其他神经元传递来的输入信号,这些信号的表达,通常通过神经元之间连接的权重大小来表示,神经元将接收到的输入值按照某种权重叠加起来,并将当前神经元的阈值进行比较,然后通过“激活函数”向外表达输出(在这个概念上就叫感知机)。

 

“M-P神经元模型”背后的那些人和事情

信号在大脑中到底是怎样的一种传输,确切来说,依然是一个谜。重要的是可以把它视为与计算机一样的存在,利用一系列的0和1来操作。大脑的神经细胞也只有两种状态:兴奋和不兴奋。

这样一来,神经元的工作形式,类似于数字电路中的逻辑门,他接受多个输入,然后产生单一的输出。通过改变神经元的激发阈值,就可完成“与(AND)”、“或(OR)”及“非(NOT)”等三个状态转换功能。

 

需要说明的是,“感知机”作为一个专业术语,是一个两层的人工神经网络,后来成为许多神经网络的基础,但它的理论基础依然是“M-P”神经元模型。但是“M-P”模型不能实现常用的“异或(XOR)”。

感知机模型存在两个关键的问题:

(1)单层的神经网络无法解决不可线性分割的问题,典型例子如异或门电路;

(2)更严重的问题,即使使用当时最先进的计算机,也没有足够计算能力,完成神经网络所需要的超大计算量(比如调整网络中的权重参数)。

未来,我们可以把深度学习、强化学习和迁移学习相结合,可以实现几个突破--反馈可以延迟,通用的模型可以个性化,可以解决冷启动的问题。

激活函数是怎样的一种存在?

前边,我们提到了神经元你的工作模型存在“激活(1)”和“抑制(0)”等两种状态的跳变,那么理想型的激活函数就应该是阶跃函数,但实际使用中,这种函数具有不光滑、不连续等众多不友好的特性,因为在训练网络权重时,通常依赖对某个权重求偏导、寻极值,而不光滑、不连续等通常意味着该函数无法“连续可导”。

 

因此,我们通常用Sigmoid函数代替阶跃函数,这个函数可以把较大变化范围内输入值(x)挤压输出在(0,1)范围之内,故此函数又称为“挤压函数”。

卷积函数又是什么?

在后续的卷积神经网络章节中,我们还会给出它的形式化定义。

假设你的承受能力是一个在时间维度上的函数f,而你的“野蛮女友”的打脸操作为函数g,那么卷积的概念,就是重新定义一个新的函数h(比如说,h用来刻画你的崩溃指数):h = f*g。

通俗来讲,所谓卷积,就是一个功能(如刻画你的承受能力)和另一个功能(比如描述你女友的打脸)在时间维度上“叠加”作用。

 

函数(function)就是功能(function),功能就是函数,函数有一定的功能才有其存在的意义。但是孤立的函数并不好玩,叠加才有意义。说学术点,由卷积得到的函数h一般要比f和g都光滑。利用这一性质,对于任意的可积函数f,都可以简单地构造出一列逼近于f的光滑函数列,这种方法被称之为函数的光滑化或正则化。

在时间的维度上的“叠加作用”,如果函数是离散的,就用求累积和来刻画。如果函数是连续的,就求积分来表达。

原文这里举的求婚的例子十分生动形象,在向女友求婚时,总是不得其果,然后就一直对女友很好,直到有一天,你给女朋友洗了一双袜子,女友被感动,就答应嫁给你了。实际上,你一直对女友各种好(函数f)和你女友的心理期许(函数g),一直在时间维度上进行不断地叠加耦合(积分求和),最终超出了女友的阈值,然后她输出了你想要的结果。那么这个函数f和函数g一起“卷积”出来的函数,是十分复杂的,你所要做的,就是持续不断的对他好。

小节

在本小节,我们主要讲了“M-P”感知机模型。简单来说,感知机模型,就是一个由两层神经元构成的网络结构,输入层接收外界的输入,通过激活函数(阈值)变换,把信号传送至输出层,因此它也称之为“阈值逻辑单元”,正是这种简单的逻辑单元,慢慢演进,越来越复杂,构成了我们目前的研究热点--深度学习网络。

下小节,我们将聊聊机器学习的三种方式。

在生物神经网络中,神经元之间的信息传递,是一种十分局部化的化学物质传递。如果每个神经都接受传递物质,那么上亿的神经一起工作,这种能量的消耗是不可想象的。而现在的人工神经网络(深度学习),是依靠大型计算设备(如大规模集群、GPU等)来海量遍历调整网络中的参数,所以耗能十分巨大。

posted @ 2020-12-16 23:56  我是球啊  阅读(235)  评论(0编辑  收藏  举报