上一页 1 2 3 4 5 6 ··· 15 下一页
摘要: 一、基础概念 1.1 信息熵 熵越大,数据的不确定性越高。熵越小,数据的不确定性越低; 物理定义熵增:熵增过程是一个自发的由有序向无序发展的过程; 条件熵:在一个条件下,随机变量的不确定性。 信息增益:熵 - 条件熵;表示特征X使得Y的不确定性减少的程度(分类后的专一性,希望分类后的结果是同类在一起 阅读全文
posted @ 2022-12-18 21:18 qsl_你猜 阅读(118) 评论(0) 推荐(0) 编辑
摘要: 本文参考:https://blog.csdn.net/qq_38890412/article/details/120360354 可以直接看这位大佬的文章 一、概述 1.1 同质与异质 异质模型:把不同类型的算法集成在一起,基础模型要有足够大差异性(可以找出最适合当前数据的模型) 同质模型:通过一个 阅读全文
posted @ 2022-12-18 21:18 qsl_你猜 阅读(55) 评论(0) 推荐(0) 编辑
摘要: 一、概述 1.1 基本原理 通过上图我们知道,bagging是每个弱学习器之间的并行计算最后综合预测,各个弱学习器之间没有依赖关系, 在训练集到子训练器的过程叫做“子抽样” 子抽样:比如有750个样本,每次抽取500个,抽取四次。第一次随机抽取500个,第二次也抽取500个,第一次与第二次抽取的数据 阅读全文
posted @ 2022-12-18 21:18 qsl_你猜 阅读(93) 评论(0) 推荐(0) 编辑
摘要: 一、概述 同一个问题可能通过不同的机器学习模型来解决,那么哪个解决方案会更客观呢? 这种集成算法一般应用与分类问题。思路很简单。假如有5种机器学习模型来进行分类预测,就拥有5个预测的结果集,那么这5种模型,一种模型一票。然后遵循少数服从多数原则。 投票分类器有硬投票和软投票两种,硬投票是对结果进行投 阅读全文
posted @ 2022-12-18 21:18 qsl_你猜 阅读(407) 评论(0) 推荐(0) 编辑
摘要: 一、概述 1.1 原理 随机森林就是通过集成学习的思想将多棵树集成的一种算法,它的基本单元是决策树 随机森林是bagging+DecisionTreeClassifier ,所谓随机森林的弱学习器都是决策树;随机森林在bagging的样本随机采样基础上,又加上了特征的随机选择,其基本思想没有脱离ba 阅读全文
posted @ 2022-12-18 21:17 qsl_你猜 阅读(92) 评论(0) 推荐(0) 编辑
摘要: 一、概述 1.1 为什么用网格搜索与交叉验证 在机器学习中,有大量的超参数需要指定;如果超参数指定不合适,则会出现过拟合和欠拟合。 而指定超参数,一种方法是凭经验;一种方法是穷举。 网格搜索可以尝试制定的每一种超参数,表现最好的参数就是最终的结果。但是比较耗时。 二、 网格搜索 2.1 estima 阅读全文
posted @ 2022-12-18 21:17 qsl_你猜 阅读(129) 评论(0) 推荐(0) 编辑
摘要: 一、概述 pipeline实现了对特征处理与机器学习的封装流程化管理,期间处理的参数可以很方便的在测试集和未来数据上反复使用。 Pipeline都是执行各学习器中对应的方法,如果该学习器没有该方法,则报错 假设该pipeline有n个学习器 fit依次对前n-1的学习器执行fit和transform 阅读全文
posted @ 2022-12-18 21:16 qsl_你猜 阅读(56) 评论(0) 推荐(0) 编辑
摘要: 一、概述 PCA(Principal Component Analysis) 常用于高维数据的降维,可用于提取数据的主要特征分量。 1.1 内积 两个向量的 A 和 B 内积我们知道形式是这样的: 内积运算将两个向量映射为实数,其计算方式非常容易理解,但我们无法看出其物理含义。接下来我们从几何角度来 阅读全文
posted @ 2022-12-18 21:16 qsl_你猜 阅读(101) 评论(0) 推荐(0) 编辑
摘要: 一、概述 DBSCAN(Density-Based Spatial Clustering of Applications with Noise)是Martin Ester, Hans-PeterKriegel等人于1996年提出的一种基于密度的空间的数据聚类方法,算法将具有足够密度区域作为距离中心, 阅读全文
posted @ 2022-12-18 21:16 qsl_你猜 阅读(185) 评论(0) 推荐(0) 编辑
摘要: 一、KMeans算法步骤 是最简单的聚类算法之一,算法接受参数 k ;然后将事先输入的n个数据对象划分为k个聚类以便使得所获得的聚类满足:同一聚类中的对象相似度较高;而不同聚类中的对象相似度较小。 指定要分成的聚类数,算法的K值默认为5,也叫5个簇(聚类) 然后在样本空间中随机挑选K个数据点,作为簇 阅读全文
posted @ 2022-12-18 21:16 qsl_你猜 阅读(50) 评论(0) 推荐(0) 编辑
上一页 1 2 3 4 5 6 ··· 15 下一页