摘要: pLSA模型--基于概率统计的pLSA模型(probabilistic Latent Semantic Analysis,概率隐语义分析),增加了主题模型,形成简单的贝叶斯网络,可以使用EM算法学习模型参数。概率潜在语义分析应用于信息检索,过滤,自然语言处理,文本的机器学习或者其他相关领域。 D代表 阅读全文
posted @ 2019-10-04 14:49 yg_staring 阅读(563) 评论(0) 推荐(0) 编辑
摘要: GMM即高斯混合模型,下面根据EM模型从理论公式推导GMM: 随机变量X是有K个高斯分布混合而成,取各个高斯分布的概率为φ1,φ2,... ,φK,第i个高斯分布的均值为μi,方差为Σi。若观测到随机变量X的一系列样本x1,x2,...,xn,试估计参数φ,μ,Σ。 E-step M-step 将多 阅读全文
posted @ 2019-10-04 10:24 yg_staring 阅读(448) 评论(0) 推荐(0) 编辑
摘要: EM算法也称期望最大化(Expectation-Maximum,简称EM)算法,它是一个基础算法,是很多机器学习领域算法的基础,比如隐式马尔科夫算法(HMM), LDA主题模型的变分推断,混合高斯模型GMM,基于概率统计的pLSA模型。 EM算法概述(原文) 我们经常会从样本观察数据中,找出样本的模 阅读全文
posted @ 2019-10-04 09:38 yg_staring 阅读(258) 评论(0) 推荐(0) 编辑
摘要: 在学习谱聚类算法之前,首先复习一下:实对称阵的特征值是实数 实对称阵不同特征值的特征向量正交 令实对称矩阵为A,其两个不同的特征值λ1λ2对应的特征向量分别是μ1μ2; λ1λ2 μ1μ2都是实数或是实向量。 正式介绍谱聚类 谱和谱聚类 方阵作为线性算子,它的所有特征值的全体统称方阵的谱。 方阵的 阅读全文
posted @ 2019-10-01 21:26 yg_staring 阅读(1206) 评论(0) 推荐(1) 编辑
摘要: 密度聚类方法:1.DBSCAN 2.密度最大值算法 密度聚类方法的指导思想是,只要样本点的密度大于某阈值,则将该样本添加到最近的簇中。 这类算法能克服基于距离的算法只能发现“类圆形”(凸)的聚类的缺点,可发现任意形状的聚类,且对噪声数据不敏感。但计算密度单元的计算复杂度大,需要建立空间索引来降低计算 阅读全文
posted @ 2019-10-01 17:07 yg_staring 阅读(649) 评论(0) 推荐(0) 编辑
摘要: 层次聚类方法 层次聚类方法对给定的数据集进行层次的分解,直到某种条件满足为止。具体又可分为: 1)凝聚的层次聚类:AGNES算法 一种自底向上的策略,首先将每个对象作为一个簇,然后合并这些原子簇为越来越大的簇,直到某个终结条件被满足。 2)分裂的层次聚类:DIANA算法 采用自顶向下的策略, 阅读全文
posted @ 2019-10-01 16:27 yg_staring 阅读(487) 评论(0) 推荐(0) 编辑
摘要: 聚类的定义: 聚类就是对大量未知标注的数据集,按数据的内在相似性将数据集划分为多个类别,使类别内的数据相似度较大而类别间的数据相似度较小,它是无监督学习。 聚类的基本思想: 给定一个有N个对象的数据集,构造数据的k个簇,k≤n。满足下列条件: 1. 每一个簇至少包含一个对象 2. 每一个对象属于且仅 阅读全文
posted @ 2019-10-01 15:42 yg_staring 阅读(850) 评论(0) 推荐(0) 编辑
摘要: SVM简述: SVM是一个线性二类分类器,当然通过选取特定的核函数也可也建立一个非线性支持向量机。SVM也可以做一些回归任务,但是它预测的时效性不是太长,他通过训练只能预测比较近的数据变化,至于再往后的变化SVM可能就不起作用了。 SVM的思想 下面举个简单的例子。如下图所示,现在有一个二维平面,平 阅读全文
posted @ 2019-09-29 16:39 yg_staring 阅读(304) 评论(0) 推荐(0) 编辑
摘要: 首先xgboost有两种接口,xgboost自带API和Scikit-Learn的API,具体用法有细微的差别但不大。 在运行 XGBoost 之前, 我们必须设置三种类型的参数: (常规参数)general parameters,(提升器参数)booster parameters和(任务参数)ta 阅读全文
posted @ 2019-09-27 22:03 yg_staring 阅读(1627) 评论(0) 推荐(0) 编辑
摘要: 提升的概念 提升是一个机器学习技术,可以用于回归和分类问题,它每一步产生一个弱预测模型(如决策树),并加权累加到总模型中;如果每一步的弱预测模型生成都是依据损失函数的梯度方向,则称之为梯度提升(Gradient boosting) 梯度提升算法首先给定一个目标损失函数,它的定义域是所有可行的若函数集 阅读全文
posted @ 2019-09-26 22:12 yg_staring 阅读(1125) 评论(0) 推荐(0) 编辑