随笔档案「2018年9月」 - Solong1989

主成分分析(PCA)简介及sklearn参数

摘要：1. PCA简介 PCA作为降维最重要的方法之一，在数据压缩消除冗余和数据噪音消除等领域都有广泛的应用。PCA的思想就是将高维数据投影到低维，一般基于两个标准选择投影方向：基于最小投影距离样本点到投影超平面的距离足够近基于最大投影方差样本点投影在超平面上的方差足够大，能够竟可能的分开，即方差阅读全文

posted @ 2018-09-20 16:48 Solong1989 阅读(13108) 评论(0) 推荐(0)

sklearn特征选择方法及参数

摘要：本文结合sklearn中的特征选择的方法，讲解相关方法函数及参数的含义。 1. 移除低方差特征方差越大的特征，可以认为是对目标变量越有影响的特征，是我们需要研究的特征。可以利用 VarianceThreshold，移除方差不满足一定阈值的特征。 class sklearn.feature_sele 阅读全文

posted @ 2018-09-13 10:33 Solong1989 阅读(12244) 评论(0) 推荐(0)

SVM简介及sklearn参数

摘要：1.SVM简介 SVM方法建立在统计学VC维和结构风险最小化原则上，既可以用于分类（二/多分类）、也可用于回归和异常值检测。SVM具有良好的鲁棒性，对未知数据拥有很强的泛化能力，特别是在数据量较少的情况下，相较其他传统机器学习算法具有更优的性能。使用SVM作为模型时，通常采用如下流程： sklea 阅读全文

posted @ 2018-09-10 19:08 Solong1989 阅读(36627) 评论(0) 推荐(3)

偏差（bias）和方差（variance）——KNN的K值、RF树的数量对bias和variance的影响

摘要：1.前言：为什么我们要关心模型的bias和variance？大家平常在使用机器学习算法训练模型时，都会划分出测试集，用来测试模型的准确率，以此评估训练出模型的好坏。但是，仅在一份测试集上测试，存在偶然性，测试结果不一定准确。那怎样才能更加客观准确的评估模型呢，很简单，多用几份测试数据进行测试，取多阅读全文

posted @ 2018-09-07 17:26 Solong1989 阅读(4524) 评论(0) 推荐(0)

LAD线性判别模型简介及sklearn参数

摘要：本文LDA指线性判别模型，并非自然语言处理中的主题模型LDA。 1.LDA简介 LDA在模式识别领域（比如人脸识别等图形图像识别领域）中有非常广泛的应用。LDA是一种监督学习的降维技术，也就是说它的数据集的每个样本是有类别输出的。这点和PCA不同。PCA是不考虑样本类别输出的无监督降维技术。LDA的阅读全文

posted @ 2018-09-05 17:55 Solong1989 阅读(2323) 评论(0) 推荐(0)

Solong1989

09 2018 档案

公告