2020年4月26日
摘要: 主成分分析PCA(Principal Component Analysis)是非监督的机器学习方法,广泛应用于数据降维。在许多领域的研究与应用中,往往需要对反映事物的多个变量进行大量的观测,收集大量数据以便进行分析寻找规律。多变量大样本无疑会为研究和应用提供了丰富的信息,但也在一定程度上增加了数据采 阅读全文
posted @ 2020-04-26 09:19 Mindy-snail 阅读(672) 评论(0) 推荐(0) 编辑
  2020年4月19日
摘要: 在了解树模型之前,自然想到树模型和线性模型有什么区别呢?其中最重要的是,树形模型是一个一个特征进行处理,之前线性模型是所有特征给予权重相加得到一个新的值。决策树与逻辑回归的分类区别也在于此,逻辑回归是将所有特征变换为概率后,通过大于某一概率阈值的划分为一类,小于某一概率阈值的为另一类;而决策树是对每 阅读全文
posted @ 2020-04-19 22:51 Mindy-snail 阅读(990) 评论(0) 推荐(0) 编辑
  2020年4月10日
摘要: 一.Logistic分类算法 逻辑回归(Logistic Regression, LR)是传统机器学习中的一种分类模型,由于算法的简单和高效,解释性好以及容易扩展等优点,被广泛应用于点击率预估(CTR)、计算广告(CA)以及推荐系统(RS)等任务中。逻辑回归虽然名字叫做回归,但实际上却是一种分类学习 阅读全文
posted @ 2020-04-10 18:38 Mindy-snail 阅读(1435) 评论(0) 推荐(0) 编辑
  2020年4月4日
摘要: 一.sklearn中的Pipeline串联用法 Python搭建机器学习模型时,Pipeline是一个加快效率的方法,主要介绍学习串联用法。Pipeline处理机制就像是把所有模型塞到一个管子里,然后依次对数据进行处理,得到最终的分类结果,例如模型一可以是一个数据标准化处理,模型二可以是特征选择模型 阅读全文
posted @ 2020-04-04 22:12 Mindy-snail 阅读(356) 评论(0) 推荐(0) 编辑
  2020年3月27日
摘要: 机器学习中的大部分问题都是优化问题,而绝大部分优化问题都可以使用梯度下降法处理,那么搞懂什么是梯度,什么是梯度下降法就非常重要!提到梯度,就必须从导数(derivative)、偏导数(partial derivative)和方向导数(directional derivative)讲起,弄清楚这些概念 阅读全文
posted @ 2020-03-27 21:54 Mindy-snail 阅读(378) 评论(0) 推荐(0) 编辑
  2020年3月23日
摘要: 凡事皆有因果关系,回归其实就是由因回溯果的过程,最终得到的因与果的关系,称之为回归。回归分析是在一系列的已知或能通过获取的自变量与因变量之间的相关关系的基础上,建立变量之间的回归方程,把回归方程作为算法模型,通过其来实现对新自变量得出因变量。、,因此回归分析是实用的预测模型或分类模型。回归模型分为单 阅读全文
posted @ 2020-03-23 21:15 Mindy-snail 阅读(668) 评论(0) 推荐(0) 编辑
  2020年3月15日
摘要: 特征预处理是特征工程的一部分,数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已。特征工程在机器学习中占有相当重要的地位,在实际应用中,特征工程是机器学习成功的关键。特征工程是利用数据领域的相关只是来创建能够使机器学习算法达到最佳性能的过程。特征工程包含了数据预处理(Data PreP 阅读全文
posted @ 2020-03-15 15:58 Mindy-snail 阅读(937) 评论(0) 推荐(0) 编辑
  2020年3月9日
摘要: Python代码实现 一·分类模型 1.sklearn.metrics中包含常用的评价指标: #准确率 accuracy_score(y_true, y_pred, normalize=True, sample_weight=None) 参数: y_true :验证集 y_pred :分类器的返回值 阅读全文
posted @ 2020-03-09 20:36 Mindy-snail 阅读(477) 评论(1) 推荐(0) 编辑
  2020年3月8日
摘要: 对于新建的模型,如何评价其好坏,以及自身的泛化能力,是机器学习中一个关键性问题。对于二分类模型,因原始数据可能是非平衡的,因此仅通过最后的预测准确率并不能评价模型的效果,对于机器学习中的分类与回归两大类模型,需采用不同的模型评价指标。 一、分类模型 1.混淆矩阵、P-R曲线及F1分数 混淆矩阵(co 阅读全文
posted @ 2020-03-08 23:48 Mindy-snail 阅读(1112) 评论(0) 推荐(0) 编辑
  2020年2月28日
摘要: 一、KNN算法简介 KNN即K近邻算法,待判别样本可以用离他距离最近的k个邻居标签属性来划分,因其训练样本集必须由带标签的样本组成,故它是一个有监督的机器学习算法,既可以用来做分类也可以用来做回归。下面通过图示案例加以理解。 上图中,张三要参加一家公司的面试,通过各种渠道了解到一些工作年限和工资之间 阅读全文
posted @ 2020-02-28 22:58 Mindy-snail 阅读(507) 评论(0) 推荐(0) 编辑