2019年4月1日

摘要: 之前对PCA的原理挺熟悉,但一直没有真正使用过。最近在做降维,实际用到了PCA方法对样本特征进行降维,但在实践过程中遇到了降维后样本维数大小限制问题。 MATLAB自带PCA函数:[coeff, score, latent, tsquared] = pca(X) 其中,X是n*p的,n是样本个数,p 阅读全文
posted @ 2019-04-01 11:34 gogo仙人掌 阅读(2957) 评论(0) 推荐(1) 编辑
 

2019年2月24日

摘要: 平滑的目的也是正则化的目的之一,它是针对参数w而言,本质上就是要使得w的变化不要那么剧烈,有如下数学模型(假设最小化J): 左侧是一个典型的线性回归模型,(xi,yi)就是实际的观测值,w就是估计的参数,右侧就是一个正则化项。可以直观的感受到,正则化项实际上起到了限制参数w的“变化程度或变化幅值”的 阅读全文
posted @ 2019-02-24 17:57 gogo仙人掌 阅读(422) 评论(0) 推荐(0) 编辑
 

2018年10月25日

摘要: 集成学习(ensemble learning)本身不是一个单独的机器学习算法,而是通过构建并结合多个机器学习器来完成学习任务。集成学习可以用于分类问题集成,回归问题集成,特征选取集成,异常点检测集成等等,可以说所有的机器学习领域都可以看到集成学习的身影。本文就对集成学习的原理做一个总结。 1. 集成 阅读全文
posted @ 2018-10-25 16:07 gogo仙人掌 阅读(164) 评论(0) 推荐(0) 编辑
 

2018年10月3日

摘要: PCA(Principal Component Analysis)是一种常用的数据分析方法。PCA通过线性变换将原始数据变换为一组各维度线性无关的表示,可用于提取数据的主要特征分量,常用于高维数据的降维。网上关于PCA的文章有很多,但是大多数只描述了PCA的分析过程,而没有讲述其中的原理。这篇文章的 阅读全文
posted @ 2018-10-03 18:56 gogo仙人掌 阅读(339) 评论(0) 推荐(0) 编辑
 

2018年9月29日

摘要: 1.正则化 模型选择的典型方法是正则化。正则化是结构风险最小策略的实现,是在经验风险上加一个正则化项。正则化项一般是模型复杂度的单调递增函数。正则化的作用是选择经验风险与模型复杂度同时小的模型。 扁平稀疏(Flat sparsity): the flat sparsity is often achi 阅读全文
posted @ 2018-09-29 17:37 gogo仙人掌 阅读(180) 评论(0) 推荐(0) 编辑
 

2018年9月19日

摘要: 在机器学习的特征选择中,利用选择矩阵的范数对选择矩阵进行约束,即是正则化技术,是一种稀疏学习。 矩阵的L0,L1范数 为了度量稀疏矩阵的稀疏性,则定义矩阵的一种范数,为: ∥W∥1=∑i,j|Wi,j|。即为矩阵所有元素的绝对值之和,能够描述接矩阵的稀疏性,但是在优化时,难度较大,是将情况向矩阵中元 阅读全文
posted @ 2018-09-19 15:49 gogo仙人掌 阅读(26958) 评论(0) 推荐(0) 编辑
 

2018年9月13日

摘要: 先验概率:根据以往经验和分析得到的概率; 后验概率:事情已经发生,这件事情的发生是由某个原因引起的可能性的大小。(种果因概率,即在一个结果已经发生的条件下,可能是其中某一个原因造成的概率有多大。) 1)先验:根据统计历史上的经验、常识当下事件发生的概率; 2)似然:当下事件由果及因发生的概率; 3) 阅读全文
posted @ 2018-09-13 12:16 gogo仙人掌 阅读(6156) 评论(0) 推荐(1) 编辑
 

2018年8月29日

摘要: k均值算法非常简单且使用广泛,但是存在的缺陷有: 1. K值需要预先给定; 属于预先知识,很多情况下K值的估计非常困难。 2. K-Means算法对初始选取的聚类中心点是敏感的; 不同的随机种子点得到的聚类结果完全不同 3. K均值算法并不适合所有的数据类型; 不能处理非球形簇、不同尺寸和不同密度的 阅读全文
posted @ 2018-08-29 11:00 gogo仙人掌 阅读(753) 评论(0) 推荐(0) 编辑
 

2018年8月9日

摘要: 矩阵求导公式 基本公式:Y = A * X --> DY/DX = AT, Y = X * A --> DY/DX = A Y=XT*A--> DY/DX = A Y = A * X--> DYT/DX = AT Y = A * X -->DY/DXT = (DYT/DX)T=A Y = AT * 阅读全文
posted @ 2018-08-09 15:35 gogo仙人掌 阅读(3668) 评论(0) 推荐(0) 编辑
 

2018年7月26日

摘要: 谱聚类(spectral clustering)是广泛使用的聚类算法,比起传统的K-Means算法,谱聚类对数据分布的适应性更强,聚类效果也很优秀,同时聚类的计算量也小很多,更加难能可贵的是实现起来也不复杂。在处理实际的聚类问题时,个人认为谱聚类是应该首先考虑的几种算法之一。下面我们就对谱聚类的算法 阅读全文
posted @ 2018-07-26 17:56 gogo仙人掌 阅读(378) 评论(0) 推荐(0) 编辑