qsl_你猜

2022年12月18日

摘要：一、基础概念 1.1 信息熵熵越大，数据的不确定性越高。熵越小，数据的不确定性越低；物理定义熵增：熵增过程是一个自发的由有序向无序发展的过程；条件熵：在一个条件下，随机变量的不确定性。信息增益：熵 - 条件熵；表示特征X使得Y的不确定性减少的程度（分类后的专一性，希望分类后的结果是同类在一起阅读全文

posted @ 2022-12-18 21:18 qsl_你猜阅读(118) 评论(0) 推荐(0) 编辑

AdaBoost

摘要：本文参考：https://blog.csdn.net/qq_38890412/article/details/120360354 可以直接看这位大佬的文章一、概述 1.1 同质与异质异质模型：把不同类型的算法集成在一起，基础模型要有足够大差异性（可以找出最适合当前数据的模型）同质模型：通过一个阅读全文

posted @ 2022-12-18 21:18 qsl_你猜阅读(55) 评论(0) 推荐(0) 编辑

Bagging集成学习

摘要：一、概述 1.1 基本原理通过上图我们知道，bagging是每个弱学习器之间的并行计算最后综合预测，各个弱学习器之间没有依赖关系，在训练集到子训练器的过程叫做“子抽样” 子抽样：比如有750个样本，每次抽取500个，抽取四次。第一次随机抽取500个，第二次也抽取500个，第一次与第二次抽取的数据阅读全文

posted @ 2022-12-18 21:18 qsl_你猜阅读(93) 评论(0) 推荐(0) 编辑

集成学习之VotingClassifier

摘要：一、概述同一个问题可能通过不同的机器学习模型来解决，那么哪个解决方案会更客观呢？这种集成算法一般应用与分类问题。思路很简单。假如有5种机器学习模型来进行分类预测，就拥有5个预测的结果集，那么这5种模型，一种模型一票。然后遵循少数服从多数原则。投票分类器有硬投票和软投票两种，硬投票是对结果进行投阅读全文

posted @ 2022-12-18 21:18 qsl_你猜阅读(407) 评论(0) 推荐(0) 编辑

随机森林

摘要：一、概述 1.1 原理随机森林就是通过集成学习的思想将多棵树集成的一种算法，它的基本单元是决策树随机森林是bagging+DecisionTreeClassifier ，所谓随机森林的弱学习器都是决策树；随机森林在bagging的样本随机采样基础上，又加上了特征的随机选择，其基本思想没有脱离ba 阅读全文

posted @ 2022-12-18 21:17 qsl_你猜阅读(92) 评论(0) 推荐(0) 编辑

交叉验证与网格搜索

摘要：一、概述 1.1 为什么用网格搜索与交叉验证在机器学习中，有大量的超参数需要指定；如果超参数指定不合适，则会出现过拟合和欠拟合。而指定超参数，一种方法是凭经验；一种方法是穷举。网格搜索可以尝试制定的每一种超参数，表现最好的参数就是最终的结果。但是比较耗时。二、网格搜索 2.1 estima 阅读全文

posted @ 2022-12-18 21:17 qsl_你猜阅读(129) 评论(0) 推荐(0) 编辑

Pipeline工作流

摘要：一、概述 pipeline实现了对特征处理与机器学习的封装流程化管理，期间处理的参数可以很方便的在测试集和未来数据上反复使用。 Pipeline都是执行各学习器中对应的方法，如果该学习器没有该方法，则报错假设该pipeline有n个学习器 fit依次对前n-1的学习器执行fit和transform 阅读全文

posted @ 2022-12-18 21:16 qsl_你猜阅读(56) 评论(0) 推荐(0) 编辑

PCA 主成分分析

摘要：一、概述 PCA（Principal Component Analysis）常用于高维数据的降维，可用于提取数据的主要特征分量。 1.1 内积两个向量的 A 和 B 内积我们知道形式是这样的：内积运算将两个向量映射为实数，其计算方式非常容易理解，但我们无法看出其物理含义。接下来我们从几何角度来阅读全文

posted @ 2022-12-18 21:16 qsl_你猜阅读(101) 评论(0) 推荐(0) 编辑

DBSCAN

摘要：一、概述 DBSCAN(Density-Based Spatial Clustering of Applications with Noise)是Martin Ester, Hans-PeterKriegel等人于1996年提出的一种基于密度的空间的数据聚类方法，算法将具有足够密度区域作为距离中心，阅读全文

posted @ 2022-12-18 21:16 qsl_你猜阅读(185) 评论(0) 推荐(0) 编辑

Kmeans

摘要：一、KMeans算法步骤是最简单的聚类算法之一，算法接受参数 k ；然后将事先输入的n个数据对象划分为k个聚类以便使得所获得的聚类满足：同一聚类中的对象相似度较高；而不同聚类中的对象相似度较小。指定要分成的聚类数，算法的K值默认为5，也叫5个簇（聚类）然后在样本空间中随机挑选K个数据点，作为簇阅读全文

posted @ 2022-12-18 21:16 qsl_你猜阅读(50) 评论(0) 推荐(0) 编辑

公告