04 2024 档案

摘要:随机森林(Random Forest)是一种强大的集成学习方法,将多个决策树组合成一个更为强大和稳健的模型,适用于分类和回归任务。其核心思想是通过构建大量决策树,每棵树都基于不同的随机样本和特征子集进行训练,最后通过投票或平均的方式综合所有树的预测结果。这样做的好处在于增加了模型的多样性,减少了过拟 阅读全文
posted @ 2024-04-28 20:45 郝hai 阅读(333) 评论(0) 推荐(0) 编辑
摘要:支持向量机(Support Vector Machine,SVM)是一种强大的监督学习算法,用于分类和回归任务。其核心思想是在高维空间中找到一个最优的超平面,将不同类别的数据分开。SVM的关键在于找到支持向量,即离超平面最近的数据点,这些支持向量决定了超平面的位置和方向。SVM通过最大化支持向量与超 阅读全文
posted @ 2024-04-28 16:50 郝hai 阅读(1173) 评论(0) 推荐(0) 编辑
摘要:PageRank算法是一种用于评估网页重要性的算法,它基于网页之间的链接结构来确定网页的权重和重要性。算法的核心思想是通过迭代计算网页之间的链接关系,以确定每个网页的权重。它将互联网视为一个有向图,其中网页是节点,链接是有向边。算法通过以下方式计算网页的PageRank值:每个网页的初始PageRa 阅读全文
posted @ 2024-04-27 15:02 郝hai 阅读(1990) 评论(1) 推荐(0) 编辑
摘要:社区发现在图领域中备受关注,其根源可以追溯到子图分割问题。在真实的社交网络中,用户之间的联系紧密度不尽相同,导致形成了不同的社区结构。社区发现问题主要分为两类:非重叠和重叠社区。非重叠社区发现指的是每个节点仅属于一个社区,社区之间没有交集。在非重叠社区发现中,有多种解决方法。其中,基于模块度的算法通 阅读全文
posted @ 2024-04-26 12:35 郝hai 阅读(1369) 评论(0) 推荐(0) 编辑
摘要:KNN(k- Nearest Neighbor,简称为KNN)法即k最邻近法,最初由 Cover和Hart于1968年提出,是一个理论上比较成熟的方法,也是最简单的机器学习算法之一,它的适用面很广,并且在样本量足够大的情况下准确度很高,多年来得到了很多的关注和研究。k最近邻(KNN)算法是一种简单而 阅读全文
posted @ 2024-04-25 22:27 郝hai 阅读(260) 评论(0) 推荐(0) 编辑
摘要:数据标准化(归一化)处理是数据挖掘的一项基础工作,不同评价指标往往具有不同的量纲和量纲单位,这样的情况会影响到数据分析的结果,为了消除指标之间的量纲影响,需要进行数据标准化处理,以解决数据指标之间的可比性。 原始数据经过数据标准化处理后,各指标处于同一数量级,适合进行综合对比评价。数据的规范化(No 阅读全文
posted @ 2024-04-07 12:56 郝hai 阅读(968) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示