摘要: 1. 什么是数据挖掘? 数据挖掘是从大量数据中提取或“挖掘”知识,很多人也把数据挖掘视作“数据库中的知识发现”(KDD)。 数据挖掘的步骤包括: 数据清理(消除噪音或不一致数据) 数据集成(多种数据源可以组合在一起) 数据选择(从数据库中提取与分析任务相关的数据) 数据变换(数据变换或统一成适合挖掘 阅读全文
posted @ 2018-10-15 17:53 Solong1989 阅读(896) 评论(0) 推荐(0) 编辑
摘要: 1. PCA简介 PCA作为降维最重要的方法之一,在数据压缩消除冗余和数据噪音消除等领域都有广泛的应用。PCA的思想就是将高维数据投影到低维,一般基于两个标准选择投影方向: 基于最小投影距离 样本点到投影超平面的距离足够近 基于最大投影方差 样本点投影在超平面上的方差足够大,能够竟可能的分开,即方差 阅读全文
posted @ 2018-09-20 16:48 Solong1989 阅读(12806) 评论(0) 推荐(0) 编辑
摘要: 本文结合sklearn中的特征选择的方法,讲解相关方法函数及参数的含义。 1. 移除低方差特征 方差越大的特征,可以认为是对目标变量越有影响的特征,是我们需要研究的特征。可以利用 VarianceThreshold,移除方差不满足一定阈值的特征。 class sklearn.feature_sele 阅读全文
posted @ 2018-09-13 10:33 Solong1989 阅读(12102) 评论(0) 推荐(0) 编辑
摘要: 1.SVM简介 SVM方法建立在统计学VC维和结构风险最小化原则上,既可以用于分类(二/多分类)、也可用于回归和异常值检测。SVM具有良好的鲁棒性,对未知数据拥有很强的泛化能力,特别是在数据量较少的情况下,相较其他传统机器学习算法具有更优的性能。 使用SVM作为模型时,通常采用如下流程: sklea 阅读全文
posted @ 2018-09-10 19:08 Solong1989 阅读(36097) 评论(0) 推荐(3) 编辑
摘要: 1.前言:为什么我们要关心模型的bias和variance? 大家平常在使用机器学习算法训练模型时,都会划分出测试集,用来测试模型的准确率,以此评估训练出模型的好坏。但是,仅在一份测试集上测试,存在偶然性,测试结果不一定准确。那怎样才能更加客观准确的评估模型呢,很简单,多用几份测试数据进行测试,取多 阅读全文
posted @ 2018-09-07 17:26 Solong1989 阅读(4142) 评论(0) 推荐(0) 编辑
摘要: 本文LDA指线性判别模型,并非自然语言处理中的主题模型LDA。 1.LDA简介 LDA在模式识别领域(比如人脸识别等图形图像识别领域)中有非常广泛的应用。LDA是一种监督学习的降维技术,也就是说它的数据集的每个样本是有类别输出的。这点和PCA不同。PCA是不考虑样本类别输出的无监督降维技术。LDA的 阅读全文
posted @ 2018-09-05 17:55 Solong1989 阅读(2028) 评论(0) 推荐(0) 编辑
摘要: 参考 : https://blog.csdn.net/abc200941410128/article/details/78541273?locationNum=1&fps=1 聚类算法的目的就是将相似的数据对象划分为一类或者簇,使得在同一个簇内的数据对象尽可能相似,不同簇中的数据对象尽可能不相似。 阅读全文
posted @ 2018-08-27 17:20 Solong1989 阅读(2629) 评论(0) 推荐(0) 编辑
摘要: 1.过拟合的问题 1.1 过拟合的定义 开篇首先谈一下机器学习模型的过拟合问题。什么是过拟合?简单来讲,当 train set 误差较小,而 test set 误差较大时,我们即可认为模型过拟合。这句话表达的另一层意思是,模型评估指标的方差(variance)较大,即可认为模型过拟合。另外,无论监督 阅读全文
posted @ 2018-08-06 18:10 Solong1989 阅读(20421) 评论(1) 推荐(0) 编辑
摘要: 逻辑回归的常见面试点总结 转自:https://www.cnblogs.com/ModifyRong/p/7739955.html 1.简介 逻辑回归是面试当中非常喜欢问到的一个机器学习算法,因为表面上看逻辑回归形式上很简单,很好掌握,但是一问起来就容易懵逼。所以在面试的时候给大家的第一个建议不要说 阅读全文
posted @ 2018-07-26 16:45 Solong1989 阅读(447) 评论(0) 推荐(0) 编辑
摘要: 用惯了python或者R语言的DataFrame格式,对spark的RDD编程模式一开始上手可能有点不习惯。本文简单梳理一下spark中常用的RDD操作。 1.初始化spark环境 2.读取本地文件 读取本地文件之后,一般都是转换成Row类型RDD,方便后续操作;同时RDD转成DataFrame前, 阅读全文
posted @ 2018-07-20 19:40 Solong1989 阅读(744) 评论(0) 推荐(0) 编辑