Solong1989

2018年10月15日

摘要： 1. 什么是数据挖掘？数据挖掘是从大量数据中提取或“挖掘”知识，很多人也把数据挖掘视作“数据库中的知识发现”（KDD）。数据挖掘的步骤包括：数据清理（消除噪音或不一致数据）数据集成（多种数据源可以组合在一起）数据选择（从数据库中提取与分析任务相关的数据）数据变换（数据变换或统一成适合挖掘阅读全文

posted @ 2018-10-15 17:53 Solong1989 阅读(896) 评论(0) 推荐(0) 编辑

2018年9月20日

主成分分析(PCA)简介及sklearn参数

摘要： 1. PCA简介 PCA作为降维最重要的方法之一，在数据压缩消除冗余和数据噪音消除等领域都有广泛的应用。PCA的思想就是将高维数据投影到低维，一般基于两个标准选择投影方向：基于最小投影距离样本点到投影超平面的距离足够近基于最大投影方差样本点投影在超平面上的方差足够大，能够竟可能的分开，即方差阅读全文

posted @ 2018-09-20 16:48 Solong1989 阅读(12806) 评论(0) 推荐(0) 编辑

2018年9月13日

sklearn特征选择方法及参数

摘要：本文结合sklearn中的特征选择的方法，讲解相关方法函数及参数的含义。 1. 移除低方差特征方差越大的特征，可以认为是对目标变量越有影响的特征，是我们需要研究的特征。可以利用 VarianceThreshold，移除方差不满足一定阈值的特征。 class sklearn.feature_sele 阅读全文

posted @ 2018-09-13 10:33 Solong1989 阅读(12102) 评论(0) 推荐(0) 编辑

2018年9月10日

SVM简介及sklearn参数

摘要： 1.SVM简介 SVM方法建立在统计学VC维和结构风险最小化原则上，既可以用于分类（二/多分类）、也可用于回归和异常值检测。SVM具有良好的鲁棒性，对未知数据拥有很强的泛化能力，特别是在数据量较少的情况下，相较其他传统机器学习算法具有更优的性能。使用SVM作为模型时，通常采用如下流程： sklea 阅读全文

posted @ 2018-09-10 19:08 Solong1989 阅读(36097) 评论(0) 推荐(3) 编辑

2018年9月7日

偏差（bias）和方差（variance）——KNN的K值、RF树的数量对bias和variance的影响

摘要： 1.前言：为什么我们要关心模型的bias和variance？大家平常在使用机器学习算法训练模型时，都会划分出测试集，用来测试模型的准确率，以此评估训练出模型的好坏。但是，仅在一份测试集上测试，存在偶然性，测试结果不一定准确。那怎样才能更加客观准确的评估模型呢，很简单，多用几份测试数据进行测试，取多阅读全文

posted @ 2018-09-07 17:26 Solong1989 阅读(4142) 评论(0) 推荐(0) 编辑

2018年9月5日

LAD线性判别模型简介及sklearn参数

摘要：本文LDA指线性判别模型，并非自然语言处理中的主题模型LDA。 1.LDA简介 LDA在模式识别领域（比如人脸识别等图形图像识别领域）中有非常广泛的应用。LDA是一种监督学习的降维技术，也就是说它的数据集的每个样本是有类别输出的。这点和PCA不同。PCA是不考虑样本类别输出的无监督降维技术。LDA的阅读全文

posted @ 2018-09-05 17:55 Solong1989 阅读(2028) 评论(0) 推荐(0) 编辑

2018年8月27日

不同聚类算法对比

摘要：参考： https://blog.csdn.net/abc200941410128/article/details/78541273?locationNum=1&fps=1 聚类算法的目的就是将相似的数据对象划分为一类或者簇，使得在同一个簇内的数据对象尽可能相似，不同簇中的数据对象尽可能不相似。阅读全文

posted @ 2018-08-27 17:20 Solong1989 阅读(2629) 评论(0) 推荐(0) 编辑

2018年8月6日

你真的了解交叉验证和过拟合吗？

摘要： 1.过拟合的问题 1.1 过拟合的定义开篇首先谈一下机器学习模型的过拟合问题。什么是过拟合？简单来讲，当 train set 误差较小，而 test set 误差较大时，我们即可认为模型过拟合。这句话表达的另一层意思是，模型评估指标的方差（variance）较大，即可认为模型过拟合。另外，无论监督阅读全文

posted @ 2018-08-06 18:10 Solong1989 阅读(20421) 评论(1) 推荐(0) 编辑

2018年7月26日

【转】逻辑回归常见面试点总结

摘要：逻辑回归的常见面试点总结转自：https://www.cnblogs.com/ModifyRong/p/7739955.html 1.简介逻辑回归是面试当中非常喜欢问到的一个机器学习算法，因为表面上看逻辑回归形式上很简单，很好掌握，但是一问起来就容易懵逼。所以在面试的时候给大家的第一个建议不要说阅读全文

posted @ 2018-07-26 16:45 Solong1989 阅读(447) 评论(0) 推荐(0) 编辑

2018年7月20日

Spark数据读取

摘要：用惯了python或者R语言的DataFrame格式，对spark的RDD编程模式一开始上手可能有点不习惯。本文简单梳理一下spark中常用的RDD操作。 1.初始化spark环境 2.读取本地文件读取本地文件之后，一般都是转换成Row类型RDD，方便后续操作；同时RDD转成DataFrame前，阅读全文

posted @ 2018-07-20 19:40 Solong1989 阅读(744) 评论(0) 推荐(0) 编辑

公告