郝hai - 博客园

2024年5月3日

摘要： Scikit-learn（简称为sklearn）是一个开源的Python机器学习库，提供了丰富而强大的工具，用于数据挖掘和数据分析。它的发展始于2007年，由David Cournapeau在Google Summer of Code项目中启动，后续得到了许多开发者的贡献，包括法国国家信息与自动化研阅读全文

posted @ 2024-05-03 11:01 郝hai 阅读(3131) 评论(0) 推荐(0)

2024年5月2日

社会网络分析及其Python实现（一）

摘要：社会网络分析（Social Network Analysis, SNA）在人类学、心理学、社会学、数学以及统计学等领域中发展起来，是综合运用图论、数学模型来研究社会行动者之间的关系或通过这些关系流动的各种有形或无形的东西，如信息、资源等，近年来逐渐成为一种热门的社会科学研究方法。社会网络分析旨在理解阅读全文

posted @ 2024-05-02 23:36 郝hai 阅读(4109) 评论(1) 推荐(0)

特征重要性评估的随机森林算法与Python实现(三)

摘要：特征重要性评估（Variable importance measure, or Feature importance evaluation，VIM）用来计算样本特征的重要性，定量地描述特征对分类或者回归的贡献程度。随机森林(Random Forest)作为一种强大的机器学习算法，在特征重要性评估方面阅读全文

posted @ 2024-05-02 23:35 郝hai 阅读(7917) 评论(0) 推荐(0)

随机森林集成Adaboosting算法与Python实现(二)

摘要： AdaBoost是Freund和Schapire于1996年提出的一种集成学习方法。它的核心思想是通过迭代训练一系列弱分类器，每次调整样本权重以便更好地拟合被前一轮分类器错误分类的样本，从而构建一个强分类器。最终的模型是基于这些弱分类器的加权组合。AdaBoost广泛应用于二分类和多分类问题，尤其在阅读全文

posted @ 2024-05-02 22:45 郝hai 阅读(307) 评论(0) 推荐(0)

2024年4月28日

随机森林集成Bagging算法与Python实现(一)

摘要：随机森林(Random Forest)是一种强大的集成学习方法，将多个决策树组合成一个更为强大和稳健的模型，适用于分类和回归任务。其核心思想是通过构建大量决策树，每棵树都基于不同的随机样本和特征子集进行训练，最后通过投票或平均的方式综合所有树的预测结果。这样做的好处在于增加了模型的多样性，减少了过拟阅读全文

posted @ 2024-04-28 20:45 郝hai 阅读(416) 评论(0) 推荐(0)

支持向量机的算法原理与Python实现

摘要：支持向量机（Support Vector Machine，SVM）是一种强大的监督学习算法，用于分类和回归任务。其核心思想是在高维空间中找到一个最优的超平面，将不同类别的数据分开。SVM的关键在于找到支持向量，即离超平面最近的数据点，这些支持向量决定了超平面的位置和方向。SVM通过最大化支持向量与超阅读全文

posted @ 2024-04-28 16:50 郝hai 阅读(1505) 评论(0) 推荐(0)

2024年4月27日

PageRank算法概述与Python实现

摘要： PageRank算法是一种用于评估网页重要性的算法，它基于网页之间的链接结构来确定网页的权重和重要性。算法的核心思想是通过迭代计算网页之间的链接关系，以确定每个网页的权重。它将互联网视为一个有向图，其中网页是节点，链接是有向边。算法通过以下方式计算网页的PageRank值：每个网页的初始PageRa 阅读全文

posted @ 2024-04-27 15:02 郝hai 阅读(2624) 评论(1) 推荐(0)

2024年4月26日

社区发现之标签传播算法（LPA）python实现

摘要：社区发现在图领域中备受关注，其根源可以追溯到子图分割问题。在真实的社交网络中，用户之间的联系紧密度不尽相同，导致形成了不同的社区结构。社区发现问题主要分为两类：非重叠和重叠社区。非重叠社区发现指的是每个节点仅属于一个社区，社区之间没有交集。在非重叠社区发现中，有多种解决方法。其中，基于模块度的算法通阅读全文

posted @ 2024-04-26 12:35 郝hai 阅读(1874) 评论(0) 推荐(0)

2024年4月25日

KNN算法思想与Python实现

摘要： KNN（k- Nearest Neighbor，简称为KNN）法即k最邻近法，最初由 Cover和Hart于1968年提出，是一个理论上比较成熟的方法，也是最简单的机器学习算法之一，它的适用面很广，并且在样本量足够大的情况下准确度很高，多年来得到了很多的关注和研究。k最近邻（KNN）算法是一种简单而阅读全文

posted @ 2024-04-25 22:27 郝hai 阅读(345) 评论(0) 推荐(0)

2024年4月7日

数据的规范化和归一化处理——Pandas实现

摘要：数据标准化（归一化）处理是数据挖掘的一项基础工作，不同评价指标往往具有不同的量纲和量纲单位，这样的情况会影响到数据分析的结果，为了消除指标之间的量纲影响，需要进行数据标准化处理，以解决数据指标之间的可比性。原始数据经过数据标准化处理后，各指标处于同一数量级，适合进行综合对比评价。数据的规范化（No 阅读全文

posted @ 2024-04-07 12:56 郝hai 阅读(1301) 评论(0) 推荐(0)

haohai9309

格物致知，知行合一！

公告