09 2018 档案
摘要:1. PCA简介 PCA作为降维最重要的方法之一,在数据压缩消除冗余和数据噪音消除等领域都有广泛的应用。PCA的思想就是将高维数据投影到低维,一般基于两个标准选择投影方向: 基于最小投影距离 样本点到投影超平面的距离足够近 基于最大投影方差 样本点投影在超平面上的方差足够大,能够竟可能的分开,即方差
阅读全文
摘要:本文结合sklearn中的特征选择的方法,讲解相关方法函数及参数的含义。 1. 移除低方差特征 方差越大的特征,可以认为是对目标变量越有影响的特征,是我们需要研究的特征。可以利用 VarianceThreshold,移除方差不满足一定阈值的特征。 class sklearn.feature_sele
阅读全文
摘要:1.SVM简介 SVM方法建立在统计学VC维和结构风险最小化原则上,既可以用于分类(二/多分类)、也可用于回归和异常值检测。SVM具有良好的鲁棒性,对未知数据拥有很强的泛化能力,特别是在数据量较少的情况下,相较其他传统机器学习算法具有更优的性能。 使用SVM作为模型时,通常采用如下流程: sklea
阅读全文
摘要:1.前言:为什么我们要关心模型的bias和variance? 大家平常在使用机器学习算法训练模型时,都会划分出测试集,用来测试模型的准确率,以此评估训练出模型的好坏。但是,仅在一份测试集上测试,存在偶然性,测试结果不一定准确。那怎样才能更加客观准确的评估模型呢,很简单,多用几份测试数据进行测试,取多
阅读全文
摘要:本文LDA指线性判别模型,并非自然语言处理中的主题模型LDA。 1.LDA简介 LDA在模式识别领域(比如人脸识别等图形图像识别领域)中有非常广泛的应用。LDA是一种监督学习的降维技术,也就是说它的数据集的每个样本是有类别输出的。这点和PCA不同。PCA是不考虑样本类别输出的无监督降维技术。LDA的
阅读全文

浙公网安备 33010602011771号