随笔分类 - 机器学习理论基础
摘要:三、贝叶斯网 1、贝叶斯网定义 贝叶斯网也称信念网,借助有向无环图(DAG)来刻画属性之间的依赖关系,使用条件概率表(CPT)来描述属性的联合概率分布。 贝叶斯网有效地表达了属性间地条件独立性。 举例: 给定父结点集,贝叶斯网假设每个属性与其非后裔属性独立,则属性间的联合概率分布定义为: 2、贝叶斯
阅读全文
摘要:二、朴素贝叶斯分类器 1、相关三概率 给定 N 个类别,设随机样本向量x={x1,x2,…,xd} ,相关的三个概率: (1)先验概率P(c) :根据以前的知识和经验得出的c类样本出现的概率,与现在无关。 (2)后验概率P(c|x) :相对于先验概率而言,表示x 属于c类的概率。 (3)条件概率P(
阅读全文
摘要:一、贝叶斯决策 贝叶斯决策论是概率框架下实施决策的基本方法,对分类任务来说,在所有相关概率已知的理想情形下,贝叶斯考虑如何基于这些概率和误判损失来选择最优的类别标记。 朴素贝叶斯分类算法是基于贝叶斯定理与特征条件独立假设的分类方法。 1、条件概率 概率指的是某一事件A发生的可能性,表示为P(A)。
阅读全文
摘要:五、SVM算法实验代码 1、线性SVM import numpy as np from sklearn.datasets import load_iris import matplotlib.pyplot as plt data = load_iris() x = data.data y = dat
阅读全文
摘要:四、序列最小优化算法(smo算法) 1、smo算法基本思想 支持向量机的学习问题可以形式化为求解凸二次规划问题。 这样的凸二次规划问题具有全局最优解, 并且有许多最优化算法可以用于这一问题的求解。 但是当训练样本容量很大时, 这些算法往往变得非常低效, 以致无法使用。 所以,如何高效地实现支持向量机
阅读全文
摘要:三、核函数 1、核技巧 若不存在一个能正确划分两类样本的超平面, 怎么办 ? 数学上可以证明,如果原始空间是有限维,即属性数有限,则一定存在一个高维特征空间使样本可分。将样本从原始空间映射到一个更高维的特征空间 , 使样本在这个特征空间内线性可分。 我们的数据集有时候是非线性可分的情况,如下图: 对
阅读全文
摘要:二、对偶问题 1、优化问题的类型 (1)无约束优化问题: 求解方法:求取函数f(x)的导数,然后令其为零,可以求得候选最优值,再在这些候选值中验证;如果是凸函数,可以保证是最优解。 (2)有等式约束的优化问题: 即把等式约束hi(x)用一个系数与f(x)写为一个式子,称为拉格朗日函数,而系数称为拉格
阅读全文
摘要:支持向量机 (Support Vector Machine) 是由Vapnik等人于1995年提出来的,之后随着统计理论的发展,支持向量机 SVM 也逐渐受到了各领域研究者的关注,在很短的时间就得到了很广泛的应用。支持向量机是被公认的比较优秀的分类模型。同时,在支持向量机的发展过程中,其理论方面的研
阅读全文
摘要:四、其他常见神经网络 1、深度学习模型 感知机只包括输入层和输出层,只能处理线性任务,为了处理非线性任务,在输入和输出之间加入了隐层,隐层的目的是对数据进行加工处理传递给输出层。 为了解决更为复杂的问题,我们需要提升模型的学习能力,这时要增加模型的复杂度,有两种策略: (1)一种是隐层保持不变,增加
阅读全文
摘要:三、误差逆传播算法(BP) 3、固定增量与批量 固定增量: 逐样本,计算误差,更新权重 批量:所有训练数据,计算平均误差,更新权重。 4、权值的初始化 权值的初始值决定了搜索的七点,其值不能太大,如果权值太大,sigmoid函数的输入很大,输出接近0或1,这时梯度很小,学习速度很慢。如果权值很大(靠
阅读全文
摘要:三、误差逆传播算法(BP) 1、BP算法 多层网络的学习能力比单层感知机强得多。欲训练多层网络,简单感知学习规则显然不够了,需要更强大的学习算法。误差逆传播(errorBackPropagation,简称BP)算法就是其中最杰出的代表。BP算法是迄今最成功的神经网络学习算法。 BP网络:用BP算法训
阅读全文
摘要:二、感知机与多层网络 3、感知机与逻辑操作 (1)线性模型 感知机只有输出层神经元进行激活函数处理,即只拥有一层功能神经元,其学习能力十分有限。有些逻辑运算(与、或、非问题)可以看成线性可分任务。若两类模式是线性可分的,即存在一个线性超平面能将它们分开,则感知机的学习过程一定会收敛而求得适当的权向量
阅读全文
摘要:二、感知机与多层网络 1、感知机 感知机由两层神经元组成,输入层接收外界的输入信号后传递给输出层,输出层是M-P神经元,亦称“阈值逻辑单元”。结构如下图: 感知机能容易地实现逻辑与、或、非操作。 神经网络的基本单元为神经元,神经元接受来自其他神经元的信号,经过一个线性变换,与阈值比较,通过非线性变换
阅读全文
摘要:一、神经元模型 1、神经网络定义 神经网络:神经网络是由适应性的简单单元组成的广泛并行互连的网络,他的组织能够模拟生物神经系统对真实世界物体所作出的交互反应。 神经网络是目前广泛使用的一种机器学习方法,机器学习中提到的神经网络指的是“神经网络学习”,或者说,是机器学习与神经网络这两个学科领域的交叉部
阅读全文
摘要:八、决策树构造 from sklearn import tree #决策树生成 clf = tree.DecisionTreeClassifier(criterion='entropy') clf = tree.DecisionTreeClassifier(criterion='gini') clf
阅读全文
摘要:七、多变量决策树 1、从“树”到“规则” 一棵决策树对应于一个“规则集”,每个从根结点到叶结点的分支路径对应于一条规则。 举例: 好处: (1)改善可理解性 (2)进一步提升泛化能力( 由于转化过程中通常会进行前件合并、泛化等操作,C4.5Rule 的泛化能力通常优于 C4.5决策树) 2、轴平行划
阅读全文
摘要:五、剪枝处理 过拟合:在决策树学习过程中,为了尽可能正确分类训练样本,结点划分过程将不断重复,有时会造成决策树分支过多,这时就可能会因训练样本学得太好,以致于把训练集自身的一些特点当作所有数据都具有的一般性质导致过拟合。 剪枝:对付过拟合的一种重要手段,通过主动去掉一些分支来降低过拟合的风险。 基本
阅读全文
摘要:六、连续与缺失值 1、连续值处理 到目前为止我们仅讨论了基于离散属性来生成决策树,现实学习任务中常常遇到连续属性,有必要讨论如何在决策树学习中使用连续属性。我们将相邻的两个属性值的平均值作为候选点。 基本思路:连续属性离散化。 常见做法:二分法(这正是C4.5决策树算法中采用的机制)。 对于连续属性
阅读全文
摘要:四、划分选择 1、属性划分选择 构造决策树的关键是如何选择最优划分属性。一般而言,随着划分过程不断进行,我们希望决策树的分支结点所包含的样本尽可能属于同一类别,即结点的“纯度”越来越高。 常用属性划分的准则: (1)ID3:信息增益 (2)C4.5:增益率 (3)CART:基尼指数 直观上,如果一个
阅读全文
摘要:一、决策树模型 决策树(decision tree)是一种常用的机器学习方法,是一种描述对实例进行分类的树形结构。 决策树是一种常用的机器学习方法,以二分类为例,假设现在我们要对是否买西瓜进行判断和决策,我们会问一些问题,根据回答,我们决断是买还是不买,或者还拿补丁主意,这时会继续问问题,直到可以确
阅读全文