lxinghua

博客园 首页 新随笔 联系 订阅 管理

2023年6月9日 #

摘要: 一、概述 随机森林:最为新兴起的、高度灵活的一种机器学习算法,随机森林(Random Forset,简称RF)拥有广泛的应用前景,从市场销售到医疗保健保险,既可以用来做市场销售模拟的建模,统计客户来源,保留和流失,也可用预测疾病的风险和病患者的易感性。 随机森林算法是一种重要的基于bagging的集 阅读全文
posted @ 2023-06-09 12:27 興華 阅读(101) 评论(0) 推荐(0) 编辑

摘要: 一、关联分析概述 1. 关联分析 2. 频繁项集的评估标准 2.1 支持度 2.2 置信度 2.3 提升度 3. 关联规则发现 二、Apriori算法原理 三、使用Apriori算法来发现频繁项集 1. 生成候选项集 2. 项集迭代函数 四、Apriori关联规则挖掘 1. 挖掘关联规则的流程 2. 阅读全文
posted @ 2023-06-09 11:53 興華 阅读(34) 评论(0) 推荐(0) 编辑

摘要: 一、聚类分析概述 聚类分析是无监督机器学习算法中最常用的一类,其目的是将数据划分成有意义或有用的组(也被称为簇)。组内的对象相互之间是相似的(相关的),而不同组中的对象是不同的(不相关的)。组内的相似性(同质性)越大,组间差别越大,聚类就越好。 1. 簇的定义 简单来说,簇就是分类结果中的类,但实际 阅读全文
posted @ 2023-06-09 11:48 興華 阅读(59) 评论(0) 推荐(0) 编辑

摘要: 一、回顾决策树(分类) ID3算法构建树模型:每次选取当前最佳的特征类分割数据,并按照该特征的所有可能取值来切分。也就是说,如果一个特征值有4中取值,那么数据将被切分成4份。一旦按某特征切分后,该特征在之后的算法执行过程中将不会再起作用,所以有观点认为这种切分方式过于迅速。 除了切分过于迅速外,ID 阅读全文
posted @ 2023-06-09 11:40 興華 阅读(14) 评论(0) 推荐(0) 编辑