摘要: 机器学习笔记(15)-隐马尔可夫模型(归纳总结) 模型归纳 这一节我们再聊一聊HMM用到的算法和要解决的任务,更好地总结归纳下HMM模型或者说这一类模型的作用。首先先回顾一下HMM的模型结构: 这是一个比较通用的带有隐藏状态的模型。该模型有下面几个特点: 观测变量:就是我们看到的已知样本(图中红色圈 阅读全文
posted @ 2020-07-12 22:34 Epir 阅读(561) 评论(0) 推荐(0) 编辑
摘要: 机器学习笔记(14)-隐马尔可夫模型 隐马尔可夫模型(Hidden Markov Model,HMM)属于概率图模型,在深度学习尤其是循环神经网络火热之前,在处理自然语言nlp任务时是非常流行的模型。模型结构和时间序列有关,是一种动态模型,即样本与样本之间并非独立分布的,而是相互关联。 动态模型的思 阅读全文
posted @ 2020-07-12 00:46 Epir 阅读(628) 评论(0) 推荐(0) 编辑
摘要: 机器学习笔记(13)-XGBoost XGBoost陈天奇等人开发的一个开源机器学习项目,高效地实现了GBDT算法并进行了算法和工程上的许多改进,被广泛应用在Kaggle竞赛及其他许多机器学习竞赛中并取得了不错的成绩。可以说在深度学习热门前和当年SVM一样属于比赛中的明星算法了。 Bagging和B 阅读全文
posted @ 2020-07-04 02:28 Epir 阅读(277) 评论(0) 推荐(0) 编辑
摘要: 机器学习笔记(12)-决策树 决策树(Decision Tree,DT)是一个使用相当广泛的树模型机器学习算法,也是很多算法如随机森林、xgboost等的基础算法,这一节主要探究下该算法的基本原理。 决策树的介绍主要从以下几点来讲解: 决策树的基本构建流程 分支划分算法 剪枝处理 基本构建流程 假设 阅读全文
posted @ 2020-06-30 23:12 Epir 阅读(340) 评论(0) 推荐(0) 编辑
摘要: 机器学习笔记(11)-异常检测-孤立森林 孤立森林(Isolation Forest,iForest)是一种异常检测算法,是西瓜书作者周志华老师的团队研究开发的算法,一般用于结构化数据的异常检测,是一种树模型。思想和决策树、随机森林都极其相似。 iForest对于样本的假设有两点,当样本不符合下面两 阅读全文
posted @ 2020-06-25 12:26 Epir 阅读(681) 评论(0) 推荐(0) 编辑
摘要: 机器学习笔记(10)-高斯混合模型 高斯混合模型(Gaussian Mixture Model,GMM),顾名思义是通过假设样本数据是由若干个服从高斯分布组合混合而成的,当我们确定一个样本点后,它可以属于任何一个高斯分布,只是属于每个分布的概率不同,所有分布的总和为1。 所以高斯分布可以用于聚类,当 阅读全文
posted @ 2020-06-25 02:00 Epir 阅读(313) 评论(0) 推荐(0) 编辑
摘要: 机器学习笔记(9)-最大期望算法 最大期望算法(Expectation-Maximization algorithm,EM)是一类通过迭代进行极大似然估计的优化算法,常用于高斯混合模型等,主要是用来解决那些样本中存在隐变量的情况。 在采用极大似然估计构造我们的目标函数时,有时我们会假设随机变量$X, 阅读全文
posted @ 2020-06-22 23:17 Epir 阅读(463) 评论(0) 推荐(0) 编辑
摘要: 机器学习笔记(8)-对偶关系和KKT条件 之前介绍了支持向量机SVM硬间隔和软间隔的推导过程,不熟悉的小伙伴可以查看《机器学习笔记(7)支持向量机》的内容,但是在求解中我们默认了强对偶关系和KKT条件,这一节就来理解并证明描述下。 对偶关系 先来看下结论,当满足对偶关系时,默认是符合弱对偶关系的,当 阅读全文
posted @ 2020-06-20 19:47 Epir 阅读(711) 评论(0) 推荐(0) 编辑
摘要: 机器学习笔记(7)-支持向量机 支持向量机(Support Vector Machine,SVM)是一种非线性分类器,在神经网络出现前,几乎占据主导角色。这节我们就来介绍下SVM的原理。 基本思想 SVM的算法处理思想简单的说就是: 间隔:找到支持向量使它与数据样本点的距离最大。 对偶:在计算时,通 阅读全文
posted @ 2020-06-20 16:41 Epir 阅读(313) 评论(0) 推荐(0) 编辑
摘要: 机器学习笔记(6)-降维 这一节我们来讲降维算法,主要介绍下主成分分析(principle component analysis,PCA),介绍之前先简单复习下矩阵分解和方差、协方差等概念。 均值(mean) 描述的是样本集合的中间点,一般所谓的数据中心化就是样本值减去均值。 \[ \bar x=\ 阅读全文
posted @ 2020-06-19 00:04 Epir 阅读(452) 评论(0) 推荐(0) 编辑