随笔分类 - 机器学习
摘要:1 前言 前馈神经网络(feedforward neural network)是一种最简单的神经网络,各神经元分层排列。每个神经元只与前一层的神经元相连。接收前一层的输出,并输出给下一层,各层间没有反馈。是目前应用最广泛、发展最迅速的人工神经网络之一。研究从20世纪60年代开始,目前理论研究和实际应
阅读全文
摘要:1 BP算法的推导 图1 一个简单的三层神经网络 图1所示是一个简单的三层(两个隐藏层,一个输出层)神经网络结构,假设我们使用这个神经网络来解决二分类问题,我们给这个网络一个输入样本,通过前向运算得到输出。输出值的值域为,例如的值越接近0,代表该样本是“0”类的可能性越大,反之是“1”类的可能性大。
阅读全文
摘要:前言 学习本章节前需要先学习: 《机器学习——最优化问题:拉格朗日乘子法、KKT条件以及对偶问题》 《机器学习——感知机》 1 摘要: 支持向量机(SVM)是一种二类分类模型,其基本模型是在特征空间上找到最佳的分离超平面使得训练集上正负样本间隔最大,间隔最大使它有别于感知机,支持向量机也可通过核技巧
阅读全文
摘要:1 Adaboost 的提出 1990年,Schapire最先构造出一种多项式级的算法,即最初的Boost算法; 1993年,Drunker和Schapire第一次将神经网络作为弱学习器,应用Boosting算法解决OCR问题; 1995年,Freund和Schapire提出了Adaboost(Ad
阅读全文
摘要:1 前言 集成学习的思想是将若干个学习器(分类器&回归器)组合之后产生一个新学习器。弱分类器(weak learner)指那些分类准确率只稍微好于随机猜测的分类器(errorrate < 0.5)。 集成算法的成功在于保证弱分类器的多样性(Diversity)。而且集成不稳定的算法也能够得到一个比较
阅读全文
摘要:1 导数定义 导数和微分的概念 $f'({x_0})=\underset{\bigtriangleup x \longrightarrow 0}{lim} \ {\large \frac{f(x)-f(x_0)}{x-{{x_0}}}} $ 或者: $f'({x_0})=\underset{ x \
阅读全文
摘要:1 前言 PCA(Principal Component Analysis)是一种常用的无监督学习方法,是一种常用的数据分析方法。 PCA 通过利用 正交变换 把由 线性相关变量 表示的观测数据转换为少数几个由 线性无关变量 表示的数据,线性无关的变量称为主成分,可用于提取数据的主要特征分量,常用于
阅读全文
摘要:1 前言 极大似然估计方法(Maximum Likelihood Estimate,MLE)也称为最大概似估计或最大似然估计,是求估计的另一种方法,极大似然估计是1821年首先由德国数学家高斯(C. F. Gauss)提出,但是这个方法通常被归功于英国的统计学家。罗纳德·费希尔(R. A. Fish
阅读全文
摘要:1 前言 最大熵模型(maximum entropy model, MaxEnt)是典型的分类算法,和逻辑回归都是属于对数线性分类模型。在损失函数优化的过程中,使用了和支持向量机类似的凸优化技术。 2 最大熵原理 最大熵原理是概率模型学习的一个准则。最大熵原理认为:学习概率模型时,在所有可能的概率模
阅读全文
摘要:1 前言 拉格朗日乘子法(Lagrange Multiplier) 和 KKT(Karush-Kuhn-Tucker) 条件是求解约束优化问题的重要方法,在有等式约束时使用拉格朗日乘子法,在有不等约束时使用 KKT 条件。当然,这两个方法求得的结果只是必要条件,只有当目标函数是凸函数的情况下,才能保
阅读全文
摘要:1 前言 虽然该机器学习算法名字里面有“回归”,但是它其实是个分类算法。取名逻辑回归主要是因为是从线性回归转变而来的。 logistic回归,又叫对数几率回归。 2 回归模型 2.1 线性回归模型 $h_\theta(x_1, x_2, ...x_n) = \theta_0 + \theta_{1}
阅读全文
摘要:1 数学基础 在实际中,最小化的函数有几个极值,所以最优化算法得出的极值不确实是否为全局的极值,对于一些特殊的函数,凸函数与凹函数,任何局部极值也是全局极致,因此如果目标函数是凸的或凹的,那么优化算法就能保证是全局的。 凸集:在凸几何中,凸集(convex set)是在凸组合下闭合的仿射空间的子集。
阅读全文
摘要:1 前言 贝叶斯学派很古老,但是从诞生到一百年前一直不是主流。主流是频率学派。频率学派的权威皮尔逊和费歇尔都对贝叶斯学派不屑一顾,但是贝叶斯学派硬是凭借在现代特定领域的出色应用表现为自己赢得了半壁江山。 贝叶斯学派的思想可以概括为 先验概率+数据=后验概率。也就是说我们在实际问题中需要得到的后验概率
阅读全文
摘要:1 前言 朴素贝叶斯算法,牵扯到一个概念是判别式和生成式。 判别式:就是直接学习出特征输出 $Y$ 和特征 $X$ 之间的关系,如决策函数 $Y=f(X)$,或者从概率论的角度,求出条件分布 $P(Y|X)$。代表算法有决策树、KNN、逻辑回归、支持向量机、随机条件场CRF等 生成式:就是直接找出特
阅读全文
摘要:1 前言 数据准确主要解决训练时遇到数据不足的问题。如为解决一个任务,目前只有小几百的数据,然而目前流行的最先进的神经网络都是成千上万的图片数据。当得到大的数据集是效果好的保证时,对自己数据集小感到失望,为避免我们的模型只在小样本数据上的优势,需要大量数据做支持。 我们需知道目前最领先的神经网络有着
阅读全文
摘要:1 前言 2012年,Dropout的想法被首次提出,受人类繁衍后代时男女各一半基因进行组合产生下一代的启发,论文《Dropout: A Simple Way to Prevent Neural Networks from Overfitting》 提出了Dropout,它的出现彻底改变了深度学习进
阅读全文
摘要:1 前言 最小二乘法是一种在误差估计、不确定度、系统辨识及预测、预报等数据处理诸多学科领域得到广泛应用的数学工具 。 2 定义 最小二乘法(又称最小平方法)是一种数学优化技术。它通过最小化误差的平方和寻找数据的最佳函数匹配。利用最小二乘法可以简便地求得未知的数据,并使得这些求得的数据与实际数据之间误
阅读全文
摘要:1 基础知识 相似度或距离 假设有 $m$ 个样本,每个样本由 $n$ 个属性的特征向量组成,样本合集 可以用矩阵 $X$ 表示 $X=[x_{ij}]_{mn}=\begin{bmatrix}x_{11}&x_{12} & ... &x_{1n} \\x_{21}&x_{22} & ... &x_
阅读全文
摘要:1 前言 Kjin邻法(k-nearest neighbors,KNN)是一种基本的机器学习方法,采用类似“物以类聚,人以群分”的思想。比如,判断一个人的人品,只需观察他来往最密切的几个人的人品好坏就可以得出。这里就运用了KNN的思想。KNN方法可以做分类,也可以做回归,这点和决策树算法相同。 KN
阅读全文
摘要:1 前言 如下图有各种各样的虫子,试将它们分成不同的组别。 一般来说可将这些虫子分成四组:蜘蛛、蜗牛、蝴蝶/飞蛾、蜜蜂/黄蜂(不唯一解)。对于人来说很容易?即使虫子数量再多一倍也能把它们分清楚。只需一点时间以及对昆虫学的热情,其实就算有成千上万只虫子你也能将它们分开。但对于一台机器而言,将这 10
阅读全文