摘要: 这篇博客整理K均值聚类的内容,包括: 1、K均值聚类的原理; 2、初始类中心的选择和类别数K的确定; 3、K均值聚类和EM算法、高斯混合模型的关系。 一、K均值聚类的原理 K均值聚类(K-means)是一种基于中心的聚类算法,通过迭代,将样本分到K个类中,使得每个样本与其所属类的中心或均值的距离之和 阅读全文
posted @ 2019-05-13 13:03 Luv_GEM 阅读(3381) 评论(0) 推荐(0) 编辑
摘要: 一、高斯混合模型概述 1、公式 高斯混合模型是指具有如下形式的概率分布模型: 其中,αk≥0,且∑αk=1,是每一个高斯分布的权重。Ø(y|θk)是第k个高斯分布的概率密度,被称为第k个分模型,参数为θk=(μk, αk2),概率密度的表达式为: 高斯混合模型就是K个高斯分布的线性组合,它假设所有的 阅读全文
posted @ 2019-05-12 14:16 Luv_GEM 阅读(7653) 评论(0) 推荐(2) 编辑
摘要: 一、EM算法概述 EM算法(Expectation Maximization Algorithm,期望极大算法)是一种迭代算法,用于求解含有隐变量的概率模型参数的极大似然估计(MLE)或极大后验概率估计(MAP)。EM算法是一种比较通用的参数估计算法,被广泛用于朴素贝叶斯、GMM(高斯混合模型)、K 阅读全文
posted @ 2019-05-11 23:54 Luv_GEM 阅读(2518) 评论(0) 推荐(0) 编辑
摘要: RNN模型由于具有短期记忆功能,因此天然就比较适合处理自然语言等序列问题,尤其是引入门控机制后,能够解决长期依赖问题,捕获输入样本之间的长距离联系。本文的模型是堆叠两层的LSTM和GRU模型,模型的结构为:LSTM(GRU)—dropout—LSTM(GRU)—dropout—全连接层—输出层,比较 阅读全文
posted @ 2019-05-09 12:58 Luv_GEM 阅读(7542) 评论(5) 推荐(0) 编辑
摘要: 博客园的markdown用起来太心塞了,现在重新用其他编辑器把这篇博客整理了一下。 目前用word2vec算法训练词向量的工具主要有两种:gensim 和 tensorflow。gensim中已经封装好了word2vec这个包,用起来很方便,只要把文本处理成规范的输入格式,寥寥几行代码就能训练词向量 阅读全文
posted @ 2019-05-09 12:56 Luv_GEM 阅读(3475) 评论(1) 推荐(0) 编辑
摘要: 文本分类是自然语言处理中一个非常经典的任务,可用的模型非常多,相关的开源代码也非常多了。这篇博客用一个CNN模型,对新闻文本进行分类。 全部代码有4个模块:1、数据处理模块(命名为:cnews_loader.py) ;2、模型搭建模块(命名为cnn_model.py);3、模型运行模块(命名为run 阅读全文
posted @ 2019-05-09 07:45 Luv_GEM 阅读(2795) 评论(0) 推荐(1) 编辑
摘要: 看了几篇关于奇异值分解(Singular Value Decomposition,SVD)的博客,大部分都是从坐标变换(线性变换)的角度来阐述,讲了一堆坐标变换的东西,整了一大堆图,试图“通俗易懂”地向读者解释清楚这个矩阵分解方法。然而这个“通俗易懂”到我这就变成了“似懂非懂”,这些漂亮的图可把我整 阅读全文
posted @ 2019-05-02 21:57 Luv_GEM 阅读(6868) 评论(0) 推荐(1) 编辑
摘要: 这篇博客整理主成分分析法(PCA)相关的内容,包括: 1、主成分分析法的思想 2、主成分的选择 3、主成分矩阵的求解 4、主成分的方差贡献率和累计方差贡献率 5、基于投影方差最大化的数学推导 一、主成分分析法的思想 我们在研究某些问题时,需要处理带有很多变量的数据,比如研究房价的影响因素,需要考虑的 阅读全文
posted @ 2019-05-01 13:04 Luv_GEM 阅读(37538) 评论(3) 推荐(2) 编辑
摘要: RNN(Recurrent Neural Networks,循环神经网络)是一种具有短期记忆能力的神经网络模型,可以处理任意长度的序列,在自然语言处理中的应用非常广泛,比如机器翻译、文本生成、问答系统、文本分类等。 但由于梯度爆炸或梯度消失,RNN存在长期依赖问题,难以建立长距离的依赖关系,于是引入 阅读全文
posted @ 2019-04-29 15:31 Luv_GEM 阅读(21107) 评论(1) 推荐(4) 编辑
摘要: 学卷积神经网络的理论的时候,我觉得自己看懂了,可是到了用代码来搭建一个卷积神经网络时,我发现自己有太多模糊的地方。这次还是基于MINIST数据集搭建一个卷积神经网络,首先给出一个基本的模型,然后再用Batch Norm、Dropout和早停对模型进行优化;在此过程中说明我在调试代码过程中遇到的一些问 阅读全文
posted @ 2019-04-28 18:56 Luv_GEM 阅读(3728) 评论(0) 推荐(0) 编辑