微笑sun

2018年7月9日

摘要：逻辑回归和线性回归都是广义线性模型中的一种，接下来我们来解释为什么是这样的？ 1、指数族分布指数族分布和指数分布是不一样的，在概率统计中很对分布都可以用指数族分布来表示，比如高斯分布、伯努利分布、多项式分布、泊松分布等。指数族分布的表达式如下其中η是natural parameter，T(y)是阅读全文

posted @ 2018-07-09 08:59 微笑sun 阅读(3277) 评论(0) 推荐(0) 编辑

2018年7月8日

机器学习中常见的过拟合解决方法

摘要：在机器学习中，我们将模型在训练集上的误差称之为训练误差，又称之为经验误差，在新的数据集（比如测试集）上的误差称之为泛化误差，泛化误差也可以说是模型在总体样本上的误差。对于一个好的模型应该是经验误差约等于泛化误差，也就是经验误差要收敛于泛化误差，根据霍夫丁不等式可知经验误差在一定条件下是可以收敛于泛化阅读全文

posted @ 2018-07-08 20:38 微笑sun 阅读(39834) 评论(0) 推荐(4) 编辑

机器学习算法总结(七)——隐马尔科夫模型(前向后向算法、鲍姆-韦尔奇算法、维特比算法)

摘要：概率图模型是一类用图来表达变量相关关系的概率模型。它以图为表示工具，最常见的是用一个结点表示一个或一组随机变量，结点之间的变表是变量间的概率相关关系。根据边的性质不同，可以将概率图模型分为两类：一类是使用有向无环图表示变量间的依赖关系，称为有向图模型或贝叶斯网；另一类是使用无向图表示变量间的相关关系阅读全文

posted @ 2018-07-08 17:32 微笑sun 阅读(4439) 评论(0) 推荐(1) 编辑

2018年7月7日

机器学习算法总结(六)——EM算法与高斯混合模型

摘要：极大似然估计是利用已知的样本结果，去反推最有可能（最大概率）导致这样结果的参数值，也就是在给定的观测变量下去估计参数值。然而现实中可能存在这样的问题，除了观测变量之外，还存在着未知的隐变量，因为变量未知，因此无法直接通过最大似然估计直接求参数值。EM算法是一种迭代算法，用于含有隐变量的概率模型的极大阅读全文

posted @ 2018-07-07 22:03 微笑sun 阅读(21854) 评论(3) 推荐(2) 编辑

2018年7月1日

机器学习中常见的损失函数

摘要：损失函数是机器学习中常用于优化模型的目标函数，无论是在分类问题，还是回归问题，都是通过损失函数最小化来求得我们的学习模型的。损失函数分为经验风险损失函数和结构风险损失函数。经验风险损失函数是指预测结果和实际结果的差别，结构风险损失函数是指经验风险损失函数加上正则项。通常表示为： θ*是我们通过损失函阅读全文

posted @ 2018-07-01 20:34 微笑sun 阅读(3285) 评论(0) 推荐(0) 编辑

机器学习算法总结(五)——聚类算法（K-means，密度聚类，层次聚类）

摘要：本文介绍无监督学习算法，无监督学习是在样本的标签未知的情况下，根据样本的内在规律对样本进行分类，常见的无监督学习就是聚类算法。在监督学习中我们常根据模型的误差来衡量模型的好坏，通过优化损失函数来改善模型。而在聚类算法中是怎么来度量模型的好坏呢？聚类算法模型的性能度量大致有两类： 1）将模型结果与某阅读全文

posted @ 2018-07-01 19:17 微笑sun 阅读(3240) 评论(0) 推荐(0) 编辑

机器学习算法总结(四)——GBDT与XGBOOST

摘要： Boosting方法实际上是采用加法模型与前向分布算法。在上一篇提到的Adaboost算法也可以用加法模型和前向分布算法来表示。以决策树为基学习器的提升方法称为提升树（Boosting Tree）。对分类问题决策树是CART分类树，对回归问题决策树是CART回归树。 1、前向分布算法引入加法模型阅读全文

posted @ 2018-07-01 15:57 微笑sun 阅读(65030) 评论(2) 推荐(3) 编辑

2018年6月30日

机器学习算法总结(三)——集成学习(Adaboost、RandomForest)

摘要： 1、集成学习概述集成学习算法可以说是现在最火爆的机器学习算法，参加过Kaggle比赛的同学应该都领略过集成算法的强大。集成算法本身不是一个单独的机器学习算法，而是通过将基于其他的机器学习算法构建多个学习器并集成到一起。集成算法可以分为同质集成和异质集成，同质集成是值集成算法中的个体学习器都是同一类阅读全文

posted @ 2018-06-30 15:01 微笑sun 阅读(5159) 评论(0) 推荐(0) 编辑

2018年6月26日

机器学习算法总结(二)——决策树（ID3, C4.5, CART）

摘要：决策树是既可以作为分类算法，又可以作为回归算法，而且在经常被用作为集成算法中的基学习器。决策树是一种很古老的算法，也是很好理解的一种算法，构建决策树的过程本质上是一个递归的过程，采用if-then的规则进行递归（可以理解为嵌套的 if - else 的条件判断过程），关于递归的终止条件有三种情形：阅读全文

posted @ 2018-06-26 22:29 微笑sun 阅读(5975) 评论(0) 推荐(1) 编辑

2018年6月23日

机器学习算法总结(一)——支持向量机

摘要：自学机器学习三个月，接触到了各种算法，然而很多知其然而不知其所以然，因此想对过往所学的知识做个总结，该系列的文章不会有过多的算法推导。我们知道较早的分类模型——感知机（1957年）是二类分类的线性分类模型，也是后来神经网络和支持向量机的基础。支持向量机（Support vector machine 阅读全文

posted @ 2018-06-23 19:39 微笑sun 阅读(26884) 评论(1) 推荐(1) 编辑

公告