机器学习算法笔记

机器学习算法笔记

云计算大数据和人工智能

image-20200416180623260

image-20200416180954425

image-20200416181100412

image-20200416181118598

image-20200416181201312

机器学习算法简介

image-20200416181406044

决策树算法

image-20200416181547849

image-20200416181707684

image-20200416181728443

image-20200416181633691

image-20200416182047069

刚才我们使用的就是ID3算法

分类回归树

image-20200416182139147

半监督学习

image-20200416212807365

集成学习

image-20200416212941677

多种或者多个学习器解决同一个问题

Bagging

image-20200416213138945

image-20200416213215263

Boosting

image-20200416213313456

对上一次预测错误的样本的权重加大

image-20200416213441650

随机森林

image-20200416213524317

image-20200416213554877

深度学习简述

image-20200416213718889

增强学习简述

image-20200416213812692

迁移学习简述

image-20200416213841823

机器学习方法三要素

image-20200414095806945

image-20200414095907032

image-20200414100007289

image-20200414100248017

image-20200414100542270

期望风险往往无法计算

在样本较小时,如果只关注经验风险,很容易过拟合

加上正则项之后,防止过拟合:

image-20200414101016552

例如:

image-20200414101132095

惩罚函数项表示参数个数

image-20200414101322260

image-20200414101414459

常用L1和L2范数,左图为L2,右图为L1

L1回归为lasso回归,L2为ridge回归

对于上图的理解:

实际上,对于L1和L2规则化的代价函数来说,我们可以写成以下形式:

img

cost function的形式就为:

[公式]

通过加入此惩罚项进行优化后,限制了回归系数wiwi的绝对值,数学上可以证明上式的等价形式如下:

[公式]

[公式]

也就是说,我们将模型空间限制在w的一个L1-ball 中。为了便于可视化,我们考虑两维的情况,在(w1, w2)平面上可以画出目标函数的等高线,而约束条件则成为平面上半径为C的一个 norm ball 。等高线与 norm ball 首次相交的地方就是最优解:

img

模型的评估与选择

评估方法

基础是交叉验证

image-20200414162045202

留1法要对每一条数据都单独拿出来一次做测试

image-20200414162309843

image-20200414162607545

image-20200414162712635

上面说的有问题,应该是有放回的抽样

性能度量

image-20200414162931782

image-20200414163059839

比较检验

image-20200414163444258

image-20200414163547377

这个完全就是概率统计里的知识

image-20200414163658565

拿个例子复习下:

image-20200414163815645

偏差与方差

image-20200414164849614

image-20200414165223320

期望泛化误差=方差(模型稳定性)+偏差(模型准确性)+噪声(数据准确性)

回归分析

image-20200414175914031

image-20200414175958770

最小二乘估计

image-20200414180423875

image-20200414182307683

另外一种方法是最大似然估计,它适用于解决参数未知的情况

最大似然估计

image-20200414180601152

image-20200414180825983

有偏估计和无偏估计

image-20200414181302312

最后一个式子的推导如下:

image-20200414181939939

image-20200414182034583

所以S^2才是样本方差的无偏估计

相关系数

image-20200414211544099

显著性检验

还使用OLE的例子:

image-20200414182307683

t检验:回归系数检验

image-20200414182527018

对于单元和多元线性回归,回归系数检验都是一样的,都是一次只检验一个变量:

image-20200414220637298

F检验:回归方程检验

yihat是yi的估计值,y杠是yi的平均值

image-20200414210802071

image-20200414211247917

k是回归系数个数,T是样本的个体数

可以看到,对于一元线性回归,F检验和t检验的假设是一样的。但是在多元线性回归中则不一样。回归方程显著性检验,检验的是自变量和因变量总体是否有联系,而不是只看某一个自变量

image-20200414220342345

image-20200414220713350

决定系数

image-20200414212129838

相关系数显著性检验

image-20200414211544099

image-20200414211757358

相关系数显著性检验是来检验计算得到的相关系数是否符合总体相关系数

残差分析

image-20200414212648387

image-20200414212817267

image-20200414213323737

模型应用

image-20200414213432548

image-20200414213807266

image-20200414213859278

image-20200414214047514

综合案例:

image-20200414214251285

多元线性回归

image-20200414214402684

image-20200414214645728

image-20200414215400552

lnL最小,等价于y和Xβ最接近,等价于离差平方和最小

自变量的标准化

image-20200414220822026

image-20200414220935670

相关系数

image-20200414221358409

这个在单元线性回归中是没有的,因为单元只有一个自变量

image-20200414221849656

回归模型诊断与优化

违背基本假设

image-20200414175958770

image-20200414222121335

异方差

image-20200414222215452

image-20200414232847662

image-20200415092901482

image-20200414233237880

image-20200414233439726

image-20200414233514547

实例:

异方差的意义是很重大的,它可以用来评估我们的模型是不是过分简单了、是不是需要提高维度

image-20200414233817237

image-20200414233920079

image-20200414234038646

异方差导致使用最小二乘法计算得出的不是最小方差的线性无偏估计

image-20200414234542769

image.png

image-20200415112030664

可以看到还原回去之后已经不是一个一元线性方程了,说明我们直接用一元线性方程来建模是不合适的

自相关

image-20200415092606599

image-20200415093041173

image-20200415093135288

一阶:后一个值只和前一个值有关

image-20200415093347924

迭代法

image-20200415093727141

ut是满足0均值,同方差、不相关的

image-20200415094505880

差分法

image-20200415094639716

BOX-COX变换

image-20200415094848360

λ是可求的,但是在实际操作中我们一般不去求解析解,而是直接给出一些取值,然后选取效果最好的一个

image-20200415111457925

image-20200415111546555

image-20200415111725858

image-20200415112237694

λ是试出来的,不太好确定

异常值

image-20200415112341485

image-20200415112514080

自变量选择

image-20200415112712551

image-20200415113021600

SSE:残差平方和

image-20200415113537935

image-20200415113647783

具体操作上:

image-20200415113820073

image-20200415114044471

image-20200415114508167

image-20200415114612387

后退法的计算量比前进法大

如果所有自变量都是独立的,理论上前进法和后退法得到的回归方程是一致的

image-20200415115025522

多重共线性

image-20200415115905219

image-20200415120000122

image-20200415120122944

image-20200415120213327

image-20200415120438442

多重共线性是导致选模型预测误差和残差方差较小的原因之一

例如:

image-20200415120553797

image-20200415120625671

改进的回归方法

岭回归

image-20200415120848583

image-20200415121101175

image-20200415121239991

例如:

image-20200415121539307

LASSO回归

image-20200415121340679

image-20200415121410322

Logistic回归

模型原理

image-20200415170225935

image-20200415170508983

image-20200415170748627

image-20200415171041153

参数估计

image-20200415171836684

image-20200415172024229

image-20200415172106546

image-20200415172209132

image-20200415172318079

image-20200415180554394

image-20200415180859115

image-20200415180930461

模型评估、诊断与调优

回归方程假设检验:

image-20200415181139552

回归系数假设检验:

image-20200415181239941

拟合优度:

image-20200415181306947

logistics模型还可以用分类模型的指标来评价:

image-20200414163059839

自变量筛选:

image-20200415181511706

image-20200415181540996

SVM

image-20200415181725265

image-20200415182014357

image-20200415182156164

image-20200415182606913

image-20200415182700280

拉格朗日乘子法

image-20200415182847325

image-20200415182831847

image-20200415182933725

image-20200415183859735

image-20200415183932377

image-20200415184211282

要对C的取值分类讨论:

image-20200415184429188

image-20200415184443495

image-20200415184457236

image-20200415184722458

推导:

image-20200415184901939

image-20200416103726596

也就是将min(x)和max(λ,μ)互换位置

image-20200416103836973

求解超平面

image-20200416104315263

image-20200416104523828

image-20200416104639252

image-20200416112518295

image-20200416112628825

核函数和松弛变量

image-20200416112714022

image-20200416112808104

image-20200416113102251

image-20200416113142553

image-20200416113213052

image-20200416113256391

image-20200416113328057

image-20200416113506497

朴素贝叶斯

image-20200416113948992

image-20200416114057779

image-20200416114208979

image-20200416114429831

image-20200416114609601

image-20200416114835980

似然函数是通过要求某一结果出现的概率最大而求解参数值的方法:即如果结果真是发生,就要求其发生的概率是最大化的

image-20200416115145638

image-20200416115333370

所以最大后验估计经常被诟病主观性太强了

image-20200416115530968

image-20200416115615948

最大似然估计其实是最大后验估计的一种特殊情况:当认为先验概率是均匀分布的话,也就是对任何值先验概率都是固定的话,最大后验估计就简化为了最大似然估计

image-20200416120235464

朴素贝叶斯假设属性之间相互独立,如果属性实际上不符合这个要求的话,误差是比较大的

image-20200416120614027

image-20200416120838283

image-20200416120907916

神经网络概述

image-20200416161641309

image-20200416161713276

image-20200416161740269

image-20200416161817830

image-20200416161917182

RNN:循环神经网络

上面的RNN可以展开为:

image-20200416162012622

image-20200416162139550

学习规则

赫布学习规则

image-20200416162337164

赫布学习规则是无监督的学习方式

把每个样本代入进去:

image-20200416162447358

离散感知器学习规则

离散感知器学习规则是有监督的学习方法

image-20200416162701414

连续感知器学习规则

image-20200416162820698

损失函数

image-20200416163023404

image-20200416163047888

image-20200416163140279

最小均方学习规则

image-20200416163843714

image-20200416163921935

相关学习规则

image-20200416164121545

相关学习规则只考虑期望输出

竞争学习

image-20200416164240516

例如:

image-20200416165116171

外星学习规则

image-20200416165431469

感知机

image-20200416165626643

多层感知机

image-20200416170005133

image-20200416170516997

image-20200416170552241

两个隐藏层就可以生成任意复杂形状的判决域

自适应线性单元

image-20200416171006695

因为使用了线性的激活函数,所以输出值是连续的,而不是离散的

量化函数:将连续的输出离散化以用于分类,回归的话不需要加

image-20200416171254458

image-20200416171510863

BP算法

image-20200416171758407

BP的推导见这里:https://www.cnblogs.com/jiading/p/11706891.html

image-20200416175117690

image-20200416175209498

image-20200416175231179

image-20200416175327191

BP算法的改进

image-20200416175510764

image-20200416175539397

image-20200416175654645

竞争神经网络

image-20200416175909898

image-20200416175954437

image-20200416180215458

自组织神经网络是前馈无监督网络,通常使用竞争学习的方法

image-20200416180304907

自组织特征映射神经网络(SOM)

SOM是无监督算法

image-20200416180454016

image-20200416214151231

对周围神经元同时有促进和抑制的效果

image-20200416214303126

image-20200416214335612

image-20200416214358557

image-20200416220308867

实例:

image-20200416220612348

image-20200416220711667

image-20200416220812297

找到最大的值,对其和其邻域进行更新:

image-20200416220929740

image-20200416220959742

image-20200416221026846

image-20200416221152005

注意在这里我们是在10x10的每个格子中都选择值最大的所对应的那个类,这就会出现有些类在结果中无法体现出来,因为它的值可以在哪个格子上对应的都不是最大的:

image-20200416221337792

例如本例中的eagle

学习向量量化神经网络(LVQ)

image-20200416223044657

LVQ是竞争学习和有监督学习的结合

image-20200416223213378

image-20200416223400570

image-20200416223517237

image-20200416223638899

对偶传播神经网络(CPN)

image-20200416223752421

划重点,存储二进制或者模拟值的模式对

image-20200416224556000

image-20200416231936752

注意调整输入层到竞争层时“对比”的不是label而是输入

image-20200416232051816

上图标题写错了,应该是输出层

可以看到,CPN对于输入层到竞争层的权重和竞争层到输出层的权重是分阶段调整的,不是一次同时进行调整

改进:双获胜神经元

image-20200416233018049

记忆能力、容量等会更强一些

左侧展示的就是CPN的联想记忆功能

可以看到,右侧的联想其实是把左侧的两个联想的情况组合了起来,组合的输入对应的组合的输出

自适应共振理论网络(ART)

image-20200416233619559

注意这里讲述了遗忘的概念

image-20200416233937312

R层会输入C层,C层的输出又会传到R层

image-20200416234105359

G2对R层整体起作用

image-20200416234324521

对于C层的每个节点,其都有三个输入,输出值是采用投票的方式决定的。在一开始G1为1,此时如果x1为1,则1占多数,输出是1;如果x1是0,则0占多数(因为此时t1是0);当t1不再一直为0时,G1变成0,此时就变成了只有t1和x1同时为1时输出才是1,否则就是0.

image-20200416234854500

门限值就是设定的测量标准

image-20200416235119451

image-20200417001432770

image-20200417001716288

image-20200417001946591

image-20200417002159924

具体算法:

image-20200417002433189

注意ART每个输入的分量都是二进制的

image-20200417002557312

image-20200417002656997

反馈神经网络

什么是反馈神经网络:

image-20200417101043663

image-20200417101112120

image-20200416161917182

Hopfield网络

image-20200417102248449

DHNN(离散Hopfield网络)

image-20200417102510325

image-20200417102648009

image-20200417102738003

image-20200417102951785

image-20200417103427561

这里的思路很妙:因为能量总是有趋于最小化的趋势的,而我们可以用式子将能量代数的表示出来,所以我们如果使用能量的代数式,就可以保证其能在变化中自动趋于全局最小点

能量函数不是直接用的,而是它定义了更新状态的方式,我们更新时要符合能量函数的式子

image-20200417103509213

image-20200417104240597

如果对角线元素值不是0的话,第三个简化的图中每个节点还应该有一个自环

image-20200417104757193

每个xi都是一个标量

注意我们是不更新系数和阈值的,只更新输入。相当于一种网络最后对应一个稳定状态的X

注意上面有一个“假稳定”,实际上还没有到达稳定

image-20200417111448311

image-20200417111525082

注意这一点:更新的先后顺序会影响状态的变化

image-20200417111646634

image-20200417111740460

这里要注意的是,虽然可能只有1/3的概率可以直接进入下一个状态,但是只要我们遍历一次节点,就一定能进入下一状态,直到收敛到最终状态:

image-20200417112010108

image-20200417112058138

image-20200417112151658

由上图可知,无论选择哪一个初始状态都会最终收敛到最终状态的:

image-20200417112227470

只有011是稳定状态,所以无论怎样变化,最终一定收敛到011

image-20200417112331882

image-20200417112458673

  • 保证权值矩阵是对称的
  • 如果平衡点是011,那要保证输入011至少应该能达到011平衡点

image-20200417112653948

就是说如果输入就是吸引子的话,要保证状态不会转移出去。当然这并不能完全保证对其他的状态能否收敛到该状态

image-20200417113122609

通过解不等式的方法可能求出多组解

解出来之后要验证其是否是吸引子(因为我们求解只是满足了一个必要条件):

image-20200417113210179

另外一个办法就是外积法

image-20200417113356069

减去一个单位矩阵是为了让对角线为0

例如:

image-20200417113848601

伪稳定点指的是虽然是稳定点,但不是我们最初设计的吸引子之一,这不是我们想要的结果

注意有些状态在并行下会陷入极限环,不能收敛:

image-20200417114049562

案例:OCR字符识别

image-20200417114205290

效果一般,因为状态之间的重叠太大了,我们可以将输入更加精确化:

image-20200417114323129

CHNN(连续Hopfield网络)

DHNN支持同步和异步,而CHNN主要是同步

image-20200417114457888

image-20200417114719025

image-20200417114821763

了解,了解即可

image-20200417114932870

image-20200417114956162

TSP旅行商问题

image-20200417115042604

输出是什么:

image-20200417115212767

image-20200417115302802

image-20200417115329094

image-20200417115342671

双向联想记忆神经网络(BAM)

image-20200417115422274

重点是双向联想

只有两层。因为是双向的所以也无所谓输入和输出之分

image-20200417120210995

稳定之后网络就训练完成了

image-20200417120652617

image-20200417120723275

随机神经网络

image-20200417120839534

image-20200417121032658

模拟退火算法

image-20200417121312445

P表示取新值的概率

image-20200417121411454

image-20200417121635181

自联想和异联想

image-20200417121734951

image-20200417121748777

image-20200417121913081

其他常见神经网络

径向基函数神经网络(RBF NN)

image-20200417172235639

image-20200417172326236

深度神经网络(DNN)

image-20200417172538662

递归神经网络(RNN)

image-20200417172632127

长短期记忆网络(LSTM)

image-20200417172726982

深度信念网络(DBN)

image-20200417172826972

生成对抗网络(GAN)

image-20200417172917155

posted @ 2020-04-29 11:40  别再闹了  阅读(733)  评论(0编辑  收藏  举报