随笔分类 - 机器学习算法
摘要:一、什么是SVM? 支持向量机是一种二分类模型。它是定义在特征空间上的、间隔最大的线性分类器。 间隔最大使得支持向量机有别于感知机。如果数据集是线性可分的,那么感知机获得的模型可能有很多个,而支持向量机选择的是间隔最大的那一个。 支持向量机还支持核技巧,从而使它成为实质上的非线性分类器。 支持向量机
阅读全文
摘要:一、什么是朴素贝叶斯? (1)思想:朴素贝叶斯假设 条件独立性假设:假设在给定label y的条件下,特征之间是独立的 最简单的概率图模型 解释: (2)重点注意:朴素贝叶斯 拉普拉斯平滑(Laplace Smoothing) 为什么要做平滑处理? 零概率问题,就是在计算实例的概率时,如果某个量x,
阅读全文
摘要:一、什么是高斯判别模型? 二、怎么求解参数?
阅读全文
摘要:线性回归不仅可以用于回归任务,还可以用于分类任务。 一、逻辑回归 1.二分类模型 (1)给定数据集$D={(x_1,y_1),(x_2,y_2),...,(x_N,y_N)}$ 考虑带$wx+b$的取值是连续的,因此它不能拟合离散变量。可以考虑用它来拟合条件概率$p(y=1|x)$,因为概率的取值也
阅读全文
摘要:在学习LDA之前,有必要将其自然语言处理领域的LDA区别开来,在自然语言处理领域, LDA是隐含狄利克雷分布(Latent Dirichlet Allocation,简称LDA),是一种处理文档的主题模型。本文只讨论线性判别分析,因此后面所有的LDA均指线性判别分析。 线性判别分析 LDA: lin
阅读全文
摘要:一、感知机(Perception) 1.1 原理: 感知机是二分类的线性模型,其输入是实例的特征向量,输出的是事例的类别,分别是+1和-1,属于判别模型。 假设训练数据集是线性可分的,感知机学习的目标是求得一个能够将训练数据集正实例点和负实例点完全正确分开的分离超平面。如果是非线性可分的数据,则最后
阅读全文
摘要:1.最小二乘法解的的推导,几何意义解释最小二乘法 2.从概率的角度解释最小二乘法 结论:最小二乘法等价于最大似然估计(条件是噪音需要满足高斯分布) 3. L2正则化 岭回归 因为最小二乘法任意过拟合,所以引入了正则化。 Ridge:假设先验满足高斯分布,使用L2正则化(权重衰减) Lasso:假设先
阅读全文
摘要:频率派 贝叶斯派 theta是个未知的常量,X是随机变量, theta是个随机变量,X是随机变量 MLE最大似然估计 MAE最大后验概率 统计机器学习,优化问题 1)建立模型、概率 2)定义损失函数 3)梯度下降/牛顿法求解 概率图模型 求积分(用蒙特卡洛方法取样)
阅读全文
摘要:生成式模型 朴素贝叶斯 K近邻(KNN) 混合高斯模型 隐马尔科夫模型(HMM) 贝叶斯网络 Sigmoid Belief Networks 马尔科夫随机场(Markov Random Fields) 深度信念网络(DBN) 判别式模型 线性回归(Linear Regression) 逻辑斯蒂回归(
阅读全文
摘要:对比一 : 有标签 vs 无标签 有监督机器学习又被称为“有老师的学习”,所谓的老师就是标签。有监督的过程为先通过已知的训练样本(如已知输入和对应的输出)来训练,从而得到一个最优模型,再将这个模型应用在新的数据上,映射为输出结果。再经过这样的过程后,模型就有了预知能力。 而无监督机器学习被称为“没有
阅读全文