合集-scikit-learn

【scikit-learn基础】--概述

摘要：Scikit-learn是一个基于Python的开源机器学习库，它提供了大量的机器学习算法和工具，方便用户进行数据挖掘、分析和预测。 Scikit-learn是基于另外两个知名的库 Scipy 和 Numpy的，关于 Scipy 和 Numpy 等库，之前的系列文章中有介绍： Scipy 基础系列阅读全文

posted @ 2023-12-02 14:18 wang_yb 阅读(1800) 评论(0) 推荐(5)

【scikit-learn基础】--『数据加载』之玩具数据集

摘要：机器学习的第一步是准备数据，好的数据能帮助我们加深对机器学习算法的理解。不管是在学习还是实际工作中，准备数据永远是一个枯燥乏味的步骤。scikit-learn库显然看到了这个痛点，才在它的数据加载子模块中为我们准备了直接可用的数据集。在它的数据加载子模块中，提供了6种直接可用来学习算法的经典数据阅读全文

posted @ 2023-12-04 11:08 wang_yb 阅读(1546) 评论(5) 推荐(1)

【scikit-learn基础】--『数据加载』之真实数据集

摘要：上一篇介绍了scikit-learn中的几个玩具数据集，本篇介绍scikit-learn提供的一些真实的数据集。玩具数据集：scikit-learn 基础(01)--『数据加载』之玩具数据集 1. 获取数据集与玩具数据集不同，真实的数据集的数据不仅数据特征多，而且数据量也比较大，所以没有直接包含在阅读全文

posted @ 2023-12-06 09:43 wang_yb 阅读(1224) 评论(3) 推荐(3)

【scikit-learn基础】--『数据加载』之样本生成器

摘要：除了内置的数据集，scikit-learn还提供了随机样本的生成器。通过这些生成器函数，可以生成具有特定特性和分布的随机数据集，以帮助进行机器学习算法的研究、测试和比较。目前，scikit-learn库（v1.3.0版）中有20个不同的生成样本的函数。本篇重点介绍其中几个具有代表性的函数。 1. 阅读全文

posted @ 2023-12-08 08:35 wang_yb 阅读(1030) 评论(0) 推荐(3)

【scikit-learn基础】--『数据加载』之外部数据集

摘要：这是scikit-learn数据加载系列的最后一篇，本篇介绍如何加载外部的数据集。外部数据集不像之前介绍的几种类型的数据集那样，针对每种数据提供对应的接口，每个接口加载的数据都是固定的。而外部数据集加载之后，数据的字段和类型是不确定的。简单来说，我们在实际的数据分析工作中，用到的是外部数据集加载阅读全文

posted @ 2023-12-09 10:23 wang_yb 阅读(725) 评论(0) 推荐(0)

【scikit-learn基础】--『预处理』之标准化

摘要：数据的预处理是数据分析，或者机器学习训练前的重要步骤。通过数据预处理，可以提高数据质量，处理数据的缺失值、异常值和重复值等问题，增加数据的准确性和可靠性整合不同数据，数据的来源和结构可能多种多样，分析和训练前要整合成一个数据集提高数据性能，对数据的值进行变换，规约等（比如无量纲化），让算法更加阅读全文

posted @ 2023-12-13 14:22 wang_yb 阅读(931) 评论(0) 推荐(2)

【scikit-learn基础】--『预处理』之数据缩放

摘要：数据的预处理是数据分析，或者机器学习训练前的重要步骤。通过数据预处理，可以提高数据质量，处理数据的缺失值、异常值和重复值等问题，增加数据的准确性和可靠性整合不同数据，数据的来源和结构可能多种多样，分析和训练前要整合成一个数据集提高数据性能，对数据的值进行变换，规约等（比如无量纲化），让算法更加阅读全文

posted @ 2023-12-15 08:50 wang_yb 阅读(781) 评论(0) 推荐(1)

【scikit-learn基础】--『预处理』之正则化

摘要：数据的预处理是数据分析，或者机器学习训练前的重要步骤。通过数据预处理，可以提高数据质量，处理数据的缺失值、异常值和重复值等问题，增加数据的准确性和可靠性整合不同数据，数据的来源和结构可能多种多样，分析和训练前要整合成一个数据集提高数据性能，对数据的值进行变换，规约等（比如无量纲化），让算法更加阅读全文

posted @ 2023-12-18 09:49 wang_yb 阅读(816) 评论(0) 推荐(0)

【scikit-learn基础】--『预处理』之分类编码

摘要：数据的预处理是数据分析，或者机器学习训练前的重要步骤。通过数据预处理，可以提高数据质量，处理数据的缺失值、异常值和重复值等问题，增加数据的准确性和可靠性整合不同数据，数据的来源和结构可能多种多样，分析和训练前要整合成一个数据集提高数据性能，对数据的值进行变换，规约等（比如无量纲化），让算法更加阅读全文

posted @ 2023-12-20 09:28 wang_yb 阅读(681) 评论(0) 推荐(1)

【scikit-learn基础】--『预处理』之离散化

摘要：数据的预处理是数据分析，或者机器学习训练前的重要步骤。通过数据预处理，可以提高数据质量，处理数据的缺失值、异常值和重复值等问题，增加数据的准确性和可靠性整合不同数据，数据的来源和结构可能多种多样，分析和训练前要整合成一个数据集提高数据性能，对数据的值进行变换，规约等（比如无量纲化），让算法更加阅读全文

posted @ 2023-12-21 09:59 wang_yb 阅读(691) 评论(0) 推荐(0)

【scikit-learn基础】--『预处理』之缺失值处理

摘要：数据的预处理是数据分析，或者机器学习训练前的重要步骤。通过数据预处理，可以提高数据质量，处理数据的缺失值、异常值和重复值等问题，增加数据的准确性和可靠性整合不同数据，数据的来源和结构可能多种多样，分析和训练前要整合成一个数据集提高数据性能，对数据的值进行变换，规约等（比如无量纲化），让算法更加阅读全文

posted @ 2023-12-22 12:36 wang_yb 阅读(732) 评论(0) 推荐(3)

【scikit-learn基础】--『监督学习』之线性回归

摘要：线性回归是一种用于连续型分布预测的机器学习算法。其基本思想是通过拟合一个线性函数来最小化样本数据和预测函数之间的误差。 1. 概述常见的线性回归模型就是：\(f(x) = w_0+w_1x_1+w_2x_2+...+w_nx_n\)这样的一个函数。其中 \((w_1,w_2,...w_n)\)是模阅读全文

posted @ 2023-12-25 10:06 wang_yb 阅读(628) 评论(2) 推荐(0)

【scikit-learn基础】--『监督学习』之岭回归

摘要：岭回归（Ridge Regression）是一种用于处理共线性数据的线性回归改进方法。和上一篇用基于最小二乘法的线性回归相比，它通过放弃最小二乘的无偏性，以损失部分信息、降低精度为代价来获得更实际和可靠性更强的回归系数。 1. 概述岭回归的模型对于存在大量相关特征（这些特征之间存在很高的相关性）的阅读全文

posted @ 2023-12-26 11:16 wang_yb 阅读(827) 评论(0) 推荐(0)

【scikit-learn基础】--『监督学习』之 LASSO回归

摘要：LASSO（Least Absolute Shrinkage and Selection Operator）回归模型一般都是用英文缩写表示，硬要翻译的话，可翻译为最小绝对收缩和选择算子。它是一种线性回归模型的扩展，其主要目标是解决高维数据中的特征选择和正则化问题。 1. 概述在LASSO中，通阅读全文

posted @ 2023-12-28 08:42 wang_yb 阅读(1926) 评论(0) 推荐(0)

【scikit-learn基础】--『监督学习』之支持向量机回归

摘要：在机器学习中，支持向量机（Support Vector Machine）算法既可以用于回归问题，也可以用于分类问题。支持向量机（SVM）算法的历史可以追溯到1963年，当时前苏联统计学家弗拉基米尔·瓦普尼克（Vladimir N. Vapnik）和他的同事阿列克谢·切尔沃宁基斯（Alexey Ya 阅读全文

posted @ 2023-12-31 22:16 wang_yb 阅读(2500) 评论(0) 推荐(0)

【scikit-learn基础】--『监督学习』之决策树回归

摘要：决策树算法是一种既可以用于分类，也可以用于回归的算法。决策树回归是通过对输入特征的不断划分来建立一棵决策树，每一步划分都基于当前数据集的最优划分特征。它的目标是最小化总体误差或最大化预测精度，其构建通常采用自上而下的贪心搜索方式，通过比较不同划分标准来选择最优划分。决策树回归广泛应用于各种回归问阅读全文

posted @ 2024-01-02 09:40 wang_yb 阅读(1313) 评论(0) 推荐(0)

【scikit-learn基础】--『监督学习』之随机森林回归

摘要：随机森林回归（Random Forest Regression）是一种在机器学习领域广泛应用的算法，由美国科学家 Leo Breiman 在2001年提出。它是一种集成学习方法，通过整合多个决策树的预测结果来提高预测精度和稳定性。随机森林回归适用于各种需要预测连续数值输出的问题，如金融领域的股票价阅读全文

posted @ 2024-01-03 09:33 wang_yb 阅读(3377) 评论(0) 推荐(1)

【scikit-learn基础】--『监督学习』之 K-近邻分类

摘要：KNN（K-近邻），全称K-Nearest Neighbors，是一种常用的分类算法。KNN算法的历史可以追溯到1957年，当时Cover和Hart提出了“最近邻分类”的概念。但是，这个算法真正得到广泛认知和应用是在1992年，由Altman发表的一篇名为“K-Nearest Neighbors”的阅读全文

posted @ 2024-01-04 09:06 wang_yb 阅读(913) 评论(0) 推荐(2)

【scikit-learn基础】--『监督学习』之逻辑回归分类

摘要：逻辑回归这个算法的名称有一定的误导性。虽然它的名称中有“回归”，当它在机器学习中不是回归算法，而是分类算法。因为采用了与回归类似的思想来解决分类问题，所以它的名称才会是逻辑回归。逻辑回归的思想可以追溯到19世纪，由英国统计学家Francis Galton在研究豌豆遗传问题时首次提出。然而，真正将逻阅读全文

posted @ 2024-01-05 09:56 wang_yb 阅读(611) 评论(0) 推荐(0)

【scikit-learn基础】--『监督学习』之贝叶斯分类

摘要：贝叶斯分类是一种统计学分类方法，基于贝叶斯定理，对给定的数据集进行分类。它的历史可以追溯到18世纪，当时英国统计学家托马斯·贝叶斯发展了贝叶斯定理，这个定理为统计决策提供了理论基础。不过，贝叶斯分类在实际应用中的广泛使用是在20世纪80年代，当时计算机技术的进步使得大规模数据处理成为可能。 1. 阅读全文

posted @ 2024-01-08 08:46 wang_yb 阅读(640) 评论(2) 推荐(0)

【scikit-learn基础】--『监督学习』之决策树分类

摘要：决策树分类算法是一种监督学习算法，它的基本原理是将数据集通过一系列的问题进行拆分，这些问题被视为决策树的叶子节点和内部节点。决策树的每个分支代表一个可能的决策结果，而每个叶子节点代表一个最终的分类结果。决策树分类算法的历史可以追溯到1980年代初，当时研究者开始探索用机器学习来解决分类问题。在19 阅读全文

posted @ 2024-01-09 10:22 wang_yb 阅读(777) 评论(0) 推荐(0)

【scikit-learn基础】--『监督学习』之随机森林分类

摘要：随机森林分类算法是一种基于集成学习（ensemble learning）的机器学习算法，它的基本原理是通过对多个决策树的预测结果进行平均或投票，以产生最终的分类结果。随机森林算法可用于回归和分类问题。关于随机森林算法在回归问题上的应用可参考：TODO 随机森林分类算法可以应用于各种需要进行分类或预阅读全文

posted @ 2024-01-10 12:26 wang_yb 阅读(847) 评论(0) 推荐(0)

【scikit-learn基础】--『监督学习』之支持向量机分类

摘要：支持向量机也是一种既可以处理分类问题，也可以处理回归问题的算法。关于支持向量机在回归问题上的应用，请参考：TODO 支持向量机分类广泛应用于图像识别、文本分类、生物信息学（例如基因分类）、手写数字识别等领域。 1. 算法概述支持向量机的主要思想是找到一个超平面，将不同类别的样本最大化地分隔开。超平阅读全文

posted @ 2024-01-12 10:25 wang_yb 阅读(447) 评论(0) 推荐(0)

【scikit-learn基础】--『监督学习』之均值聚类

摘要：聚类算法属于无监督学习，其中最常见的是均值聚类，scikit-learn中，有两种常用的均值聚类算法：一种是有名的K-means（也就是K-均值）聚类算法，这个算法几乎是学习聚类必会提到的算法；另一个是均值偏移聚类，它与K-means各有千秋，只是针对的应用场景不太一样，但是知名度远不如K-Mean 阅读全文

posted @ 2024-01-14 09:53 wang_yb 阅读(428) 评论(3) 推荐(0)

【scikit-learn基础】--『监督学习』之层次聚类

摘要：层次聚类算法是机器学习中常用的一种无监督学习算法，它用于将数据分为多个类别或层次。该方法在计算机科学、生物学、社会学等多个领域都有广泛应用。层次聚类算法的历史可以追溯到上世纪60年代，当时它主要被用于社会科学中。随着计算机技术的发展，这种方法在90年代得到了更为广泛的应用。 1. 算法概述层次聚阅读全文

posted @ 2024-01-15 14:23 wang_yb 阅读(596) 评论(3) 推荐(1)

【scikit-learn基础】--『监督学习』之谱聚类

摘要：谱聚类算法基于图论，它的起源可以追溯到早期的图分割文献。不过，直至近年来，受益于计算机计算能力的提升，谱聚类算法才得到了广泛的研究和关注。谱聚类被广泛应用于图像分割、社交网络分析、推荐系统、文本聚类等领域。例如，在图像分割中，谱聚类可以有效地将图像划分为背景和前景；在社交网络分析中，它可以识别出不阅读全文

posted @ 2024-01-18 09:40 wang_yb 阅读(727) 评论(0) 推荐(0)

【scikit-learn基础】--『监督学习』之空间聚类

摘要：空间聚类算法是数据挖掘和机器学习领域中的一种重要技术。本篇介绍的基于密度的空间聚类算法的概念可以追溯到1990年代初期。随着数据量的增长和数据维度的增加，基于密度的算法逐渐引起了研究者的关注。其中，DBSCAN（Density-Based Spatial Clustering of Applica 阅读全文

posted @ 2024-01-20 14:24 wang_yb 阅读(354) 评论(0) 推荐(0)

【scikit-learn基础】--『回归模型评估』之误差分析

摘要：模型评估在统计学和机器学习中具有至关重要，它帮助我们主要目标是量化模型预测新数据的能力。在这个数据充斥的时代，没有评估的模型就如同盲人摸象，可能带来误导和误判。模型评估不仅是一种方法，更是一种保障，确保我们在数据海洋中航行时，能够依赖准确的模型，做出明智的决策。本篇主要介绍模型评估时，如何利用s 阅读全文

posted @ 2024-01-22 15:35 wang_yb 阅读(1692) 评论(0) 推荐(0)

【scikit-learn基础】--『回归模型评估』之偏差分析

摘要：模型评估在统计学和机器学习中具有至关重要，它帮助我们主要目标是量化模型预测新数据的能力。本篇主要介绍模型评估时，如何利用scikit-learn帮助我们快速进行各种偏差的分析。 1. **R² ** 分数 R² 分数（也叫决定系数），用于衡量模型预测的拟合优度，它表示模型中因变量的变异中，可由自变阅读全文

posted @ 2024-01-24 11:08 wang_yb 阅读(962) 评论(0) 推荐(0)

【scikit-learn基础】--『回归模型评估』之可视化评估

摘要：在scikit-learn中，回归模型的可视化评估是一个重要环节。它帮助我们理解模型的性能，分析模型的预测能力，以及检查模型是否存在潜在的问题。通过可视化评估，我们可以更直观地了解回归模型的效果，而不仅仅依赖于传统的评估指标。 1. 残差图所谓残差，就是实际观测值与预测值之间的差值。残差图是指以阅读全文

posted @ 2024-01-26 12:57 wang_yb 阅读(3028) 评论(0) 推荐(1)

【scikit-learn基础】--『回归模型评估』之准确率分析

摘要：分类模型的评估和回归模型的评估侧重点不一样，回归模型一般针对连续型的数据，而分类模型一般针对的是离散的数据。所以，评估分类模型时，评估指标与回归模型也很不一样，比如，分类模型的评估指标通常包括准确率、精确率、召回率和F1分数等等。而回归模型的评估指标通常包括均方误差（MSE）、均方根误差（RMSE 阅读全文

posted @ 2024-01-28 09:32 wang_yb 阅读(1348) 评论(0) 推荐(0)

【scikit-learn基础】--『回归模型评估』之损失分析

摘要：分类模型评估中，通过各类损失（loss）函数的分析，可以衡量模型预测结果与真实值之间的差异。不同的损失函数可用于不同类型的分类问题，以便更好地评估模型的性能。本篇将介绍分类模型评估中常用的几种损失计算方法。 1. 汉明损失 Hamming loss（汉明损失）是一种衡量分类模型预测错误率的指标。它阅读全文

posted @ 2024-01-30 16:08 wang_yb 阅读(765) 评论(0) 推荐(2)

【scikit-learn基础】--『分类模型评估』之系数分析

摘要：前面两篇介绍了分类模型评估的两类方法，准确率分析和损失分析，本篇介绍的杰卡德相似系数和马修斯相关系数为我们提供了不同的角度来观察模型的性能，尤其在不平衡数据场景中，它们更能体现出其独特的价值。接下来，让我们一起了解这两个评估指标的原理与特点。 1. 杰卡德相似系数杰卡德相似系数（Jaccard 阅读全文

posted @ 2024-01-31 14:20 wang_yb 阅读(814) 评论(0) 推荐(0)

【scikit-learn基础】--『分类模型评估』之评估报告

摘要：分类模型评估时，scikit-learn提供了混淆矩阵和分类报告是两个非常实用且常用的工具。它们为我们提供了详细的信息，帮助我们了解模型的优缺点，从而进一步优化模型。这两个工具之所以单独出来介绍，是因为它们的输出内容特别适合用在模型的评估报告中。 1. 混淆矩阵混淆矩阵（Confusion Ma 阅读全文

posted @ 2024-02-04 09:33 wang_yb 阅读(644) 评论(0) 推荐(0)

【scikit-learn基础】--模型持久化

摘要：模型持久化（模型保存与加载）是机器学习完成的最后一步。因为，在实际情况中，训练一个模型可能会非常耗时，如果每次需要使用模型时都要重新训练，这无疑会浪费大量的计算资源和时间。通过将训练好的模型持久化到磁盘，我们可以在需要使用模型时直接从磁盘加载到内存，而无需重新训练。这样不仅可以节省时间，还可以提高阅读全文

posted @ 2024-02-08 15:48 wang_yb 阅读(887) 评论(0) 推荐(1)

神经网络极简入门

摘要：神经网络是深度学习的基础，正是深度学习的兴起，让停滞不前的人工智能再一次的取得飞速的发展。其实神经网络的理论由来已久，灵感来自仿生智能计算，只是以前限于硬件的计算能力，没有突出的表现，直至谷歌的AlphaGO的出现，才让大家再次看到神经网络相较于传统机器学习的优异表现。本文主要介绍神经网络中的重阅读全文

posted @ 2024-05-07 09:48 wang_yb 阅读(2277) 评论(0) 推荐(9)

神经网络中神经元的权重更新

摘要：前段时间写过一篇介绍神经网络的入门文章：神经网络极简入门。那篇文章介绍了神经网络中的基本概念和原理，并附加了一个示例演示如何实现一个简单的神经网络。不过，在那篇文章中并没有详细介绍神经网络在训练时，是如何一步步找到每个神经元的最优权重的。本篇介绍神经网络训练时，常用的一种权重更新的方式--梯度下降阅读全文

posted @ 2024-07-15 14:04 wang_yb 阅读(2421) 评论(0) 推荐(0)

机器学习的数学基础--向量，矩阵

摘要：机器学习与传统编程的一个重要区别在于机器学习比传统编程涉及了更多的数学知识。不过，随着机器学习的飞速发展，各种框架应运而生，在数据分析等应用中使用机器学习时，使用现成的库和框架成为常态，似乎越来越不需要数学知识了。其实，现成的库和框架只是帮助我们简化机器学习的开发任务，如果想要对模型训练结果进行调阅读全文

posted @ 2024-08-08 16:11 wang_yb 阅读(1108) 评论(4) 推荐(9)

机器学习的数学基础--微积分

摘要：微积分运算在机器学习领域扮演着至关重要的角色，它不仅是许多基础算法和模型的核心，还深刻影响着模型的优化、性能评估以及新算法的开发。掌握微积分，不仅让我们多会一种计算方式，也有助于理解各种机器学习算法和模型是如何寻找最优参数的。 1. 为什么需要微积分？也许有些人会觉得微积分很难，这大概是因为我们阅读全文

posted @ 2024-08-18 10:30 wang_yb 阅读(777) 评论(1) 推荐(2)

scikit-learn中的Pipeline：构建高效、可维护的机器学习流程

摘要：我们使用scikit-learn进行机器学习的模型训练时，用到的数据和算法参数会根据具体的情况相应调整变化，但是，整个模型训练的流程其实大同小异，一般都是加载数据，数据预处理，特征选择，模型训练等几个环节。如果训练的结果不尽如人意，从数据预处理开始，再次重新训练。今天介绍的Pipeline（中阅读全文

posted @ 2024-12-08 22:10 wang_yb 阅读(913) 评论(0) 推荐(2)

掌握机器学习数据集划分

摘要：在机器学习的流程中，数据集的合理划分是模型训练与评估的关键前提。恰当的划分方式不仅能有效利用数据资源，还能确保模型评估结果的可靠性，为模型的泛化能力提供有力保障。本文将深入介绍3种常见的数据集划分方法：留出法、交叉验证法和自助法，并配以scikit-learn的代码示例来说明如何使用这些方法。阅读全文

posted @ 2025-03-24 10:12 wang_yb 阅读(1632) 评论(0) 推荐(1)

模型的泛化性能度量：方法、比较与实现

摘要：在机器学习领域，模型的泛化性能度量是评估模型在未知数据上表现的关键环节。通过合理的性能度量，不仅能了解模型的优劣，还能为模型的优化和选择提供科学依据。本文将深入探讨泛化性能度量的重要性、各种度量方法、它们之间的区别与适用场景，并通过scikit-learn代码示例来展示如何实现这些度量方法。 1 阅读全文

posted @ 2025-03-26 08:34 wang_yb 阅读(803) 评论(0) 推荐(1)

比较检验：找出最佳机器学习模型

摘要：在机器学习领域，我们常常需要在多个模型之间进行比较，以选择最适合特定任务的模型。模型比较检验为此提供了科学的依据和方法。本文将探讨比较检验的概念、方法、区别与适用范围，并结合scikit-learn库给出具体的代码示例。 1. 什么是比较检验比较检验，又称比对检验，是指通过比较不同模型（或算法阅读全文

posted @ 2025-03-28 11:06 wang_yb 阅读(1385) 评论(0) 推荐(1)

直线思维的进化：线性到广义线性

摘要：在数据科学领域，线性模型和广义线性模型是两种基础且重要的统计工具，它们被广泛应用于各种预测和分析任务中，从简单的回归问题到复杂的分类场景。今天，让我们深入探讨这两种模型，了解它们的原理、区别以及实际应用。 1. 线性模型：统计分析的基石线性模型是统计学中最早被提出和广泛应用的一类模型。其基本阅读全文

posted @ 2025-04-01 10:47 wang_yb 阅读(525) 评论(0) 推荐(0)

线性判别分析（LDA）：降维与分类的完美结合

摘要：在机器学习领域，线性判别分析（Linear Discriminant Analysis，简称LDA）是一种经典的算法，它在降维和分类任务中都表现出色。 LDA通过寻找特征空间中能够最大化类间方差和最小化类内方差的方向，实现数据的降维和分类。本文主要介绍LDA的基本原理，展示其如何解决分类问题，以及阅读全文

posted @ 2025-04-02 11:16 wang_yb 阅读(2427) 评论(0) 推荐(0)

线性模型与多分类问题：简单高效的力量

摘要：在机器学习的世界里，分类问题无处不在，而多分类问题更是其中的常见挑战。无论是识别手写数字、分类新闻主题，还是预测客户购买的产品类别，多分类问题都扮演着重要角色。线性模型，以其简洁高效的特点，成为了应对多分类问题的有力工具之一。本文将探讨线性模型解决多分类问题的原理、策略以及优缺点，并通过代码示阅读全文

posted @ 2025-04-03 08:40 wang_yb 阅读(810) 评论(0) 推荐(0)

不平衡样本数据的救星：数据再分配策略

摘要：在机器学习领域，数据是模型训练的基础，而数据的分布情况往往会对模型的性能产生重要影响。不平衡样本数据是我们在实际项目中经常会遇到的问题，它可能导致模型对多数类过度拟合，而对少数类的预测能力不足。本文将详细介绍不平衡样本数据的常见场景、处理方法以及在实践中需要注意的问题，帮助你在模型训练前有效地进阅读全文

posted @ 2025-04-04 09:45 wang_yb 阅读(1495) 评论(0) 推荐(0)

决策树：机器学习中的“智慧树”

摘要：在机器学习的广阔森林中，决策树（Decision Tree）是一棵独特而强大的“智慧树”。它是一种监督学习算法，既可以用于分类任务，也能用于回归任务，通过树形结构模拟人类决策过程。这篇文章会带你了解决策树，从基础概念开始，一步步讲解如何构建决策树、常用的算法以及它的实际应用。 1. 概述决策树阅读全文

posted @ 2025-04-09 11:34 wang_yb 阅读(706) 评论(0) 推荐(0)

决策树剪枝：平衡模型复杂性与泛化能力

摘要：在机器学习的世界里，决策树是一种简单而强大的算法，但它的 “任性生长” 却常常让数据科学家陷入 “过拟合的困境”。想象一下，一棵决策树如果无限生长，它可能会完美地拟合训练集中的每一个数据点，但当面对新的数据时，却可能表现得像一个“陌生人”——预测完全失效。这种现象背后的原因在于模型过于复杂，对训阅读全文

posted @ 2025-04-10 13:24 wang_yb 阅读(593) 评论(0) 推荐(0)

当决策树遇上脏数据：连续值与缺失值的解决方案

摘要：在机器学习中，决策树算法因其简单易懂、可解释性强而被广泛应用。然而，现实世界中的数据往往复杂多变，尤其是连续值和缺失值的存在，给决策树的构建带来了诸多挑战。连续值（如年龄、收入）无法直接用于决策树的离散分裂点，需要转化为“离散区间”。缺失值（如用户未填写的问卷项）可能导致信息损失或模型偏差。阅读全文

posted @ 2025-04-11 11:52 wang_yb 阅读(469) 评论(0) 推荐(0)

多变量决策树：机器学习中的“多面手”

摘要：在机器学习的广阔领域中，决策树一直是一种备受青睐的算法。它以其直观、易于理解和解释的特点，广泛应用于分类和回归任务。然而，随着数据复杂性的不断增加，传统决策树的局限性逐渐显现。本文将深入探讨多变量决策树这一强大的工具，它不仅克服了传统决策树的瓶颈，还为处理复杂数据提供了新的思路。 1. 基本概念阅读全文

posted @ 2025-04-15 09:57 wang_yb 阅读(486) 评论(0) 推荐(0)

核函数：让支持向量机从“青铜”变“王者”

摘要：在机器学习领域，支持向量机（SVM）是一种强大的分类算法，而核函数则是其核心组件之一。核函数的本质是一个「空间映射工具」。当原始数据在低维空间中线性不可分时（如环形、月牙形数据），核函数能将数据隐式地映射到更高维的特征空间，使得在高维空间中数据变得线性可分，同时避免直接计算高维特征的爆炸性计算量阅读全文

posted @ 2025-04-21 10:30 wang_yb 阅读(1014) 评论(0) 推荐(0)

软间隔：让支持向量机更“宽容”

摘要：在SVM中，软间隔是一个重要的概念，它允许模型在一定程度上容忍误分类，从而提高模型的泛化能力。本文将详细介绍软间隔的定义、与硬间隔的区别、损失函数的作用，最后使用 scikit-learn 进行实际演示。 1. 软间隔 vs 硬间隔在支持向量机中，软间隔是指允许某些数据点违反分类边界（即误分类）阅读全文

posted @ 2025-04-22 09:17 wang_yb 阅读(474) 评论(0) 推荐(0)

极大似然估计：频率学派与贝叶斯学派的碰撞与融合

摘要：在统计学的世界里，参数估计一直是数据分析的核心任务之一。极大似然估计（MLE）作为一种经典的参数估计方法，被广泛应用于各种领域。然而，极大似然估计并非只有一种实现方式，它在频率学派和贝叶斯学派中有着不同的理论基础和应用场景。本文将探讨这两种学派的区别，并通过实际代码示例展示它们在极大似然估计中阅读全文

posted @ 2025-05-04 08:51 wang_yb 阅读(329) 评论(0) 推荐(0)

从“朴素”到“半朴素”：贝叶斯分类器的进阶之路

摘要：在机器学习分类任务中，朴素贝叶斯（Naive Bayes）因其简单高效而广受欢迎，但它的“朴素”之名也暗示了其局限性。为了突破这一局限，半朴素贝叶斯（Semi-Naive Bayes）应运而生。本文将详细介绍朴素贝叶斯和半朴素贝叶斯的原理、应用场景以及如何使用scikit-learn库实现它们阅读全文

posted @ 2025-05-05 09:56 wang_yb 阅读(529) 评论(0) 推荐(1)

集成学习双雄：Boosting和Bagging简介

摘要：在机器学习的世界里，集成学习（Ensemble Learning）是一种强大的技术，它通过组合多个模型来提高预测性能。集成学习通过组合多个基学习器的预测结果，获得比单一模型更优秀的性能。其核心思想是"三个臭皮匠顶个诸葛亮"，主要分为两大流派：Boosting（提升）和Bagging（装袋）。本文阅读全文

posted @ 2025-05-12 10:21 wang_yb 阅读(638) 评论(0) 推荐(0)

集成学习常用组合策略：让多个模型“合作”得更好

摘要：集成学习通过组合多个学习器的预测结果，达到超越单个学习器的效果。就像医生会诊时综合多位专家的意见，集成学习的关键在于如何有效整合不同学习器的判断。这些学习器可以是不同类型的模型，比如决策树、支持向量机、神经网络等。通过合理地组合这些学习器，我们可以获得比单一模型更好的预测效果。今天，重点介绍4 阅读全文

posted @ 2025-05-13 10:14 wang_yb 阅读(588) 评论(0) 推荐(0)

集成学习中的多样性密码：量化学习器的多样性

摘要：在集成学习中，多样性是一个关键概念，简单来说，多样性衡量的是各个学习器之间的差异程度。如果学习器之间差异很大，那么它们的组合就更有可能覆盖更多的情况，从而提高集成模型的性能，就像足球队需要不同位置的球员配合一样。下面介绍四种常用的多样性度量方法及其实现。 1. 不合度量（Disagreemen 阅读全文

posted @ 2025-05-14 12:32 wang_yb 阅读(719) 评论(0) 推荐(0)

同样的数据，更强的效果：如何让模型学会‘互补思维’？

摘要：集成学习虽然能够通过组合多个学习器来提高预测性能，然而，如果这些学习器过于相似，集成的效果可能并不理想。因此，增强学习器的多样性是提升集成学习性能的关键。多样性带来的优势在于：群体智慧原理：多样化的模型可以从不同角度捕捉数据规律误差互补效应：不同模型的错误模式不同，投票后误差相互抵消防止过阅读全文

posted @ 2025-05-16 10:09 wang_yb 阅读(609) 评论(0) 推荐(0)

你的聚类模型靠谱吗？5大外部指标彻底揭秘

摘要：在聚类分析中，我们常常需要评估聚类结果的质量。外部指标是一种通过与已知的“真实标签”进行比较来评估聚类性能的方法。这些指标可以帮助我们判断聚类算法是否能够准确地将数据划分为有意义的类别。本文将介绍几种常见的外部指标，包括 Jaccard 系数、FM 指数、Rand 指数、DB 指数和 Dunn 阅读全文

posted @ 2025-05-19 11:54 wang_yb 阅读(716) 评论(0) 推荐(0)

聚类是如何度量数据间的“远近”的？

摘要：在聚类分析中，距离度量是核心概念之一，它决定了数据点之间的相似性或差异性，从而影响聚类结果的质量。选择合适的距离度量方法，就像为数据选择合适的“观察视角”，能够帮助我们发现隐藏的模式结构。本文将详细介绍几种常用的聚类距离度量方法，包括它们的原理、代码实现，以及这些方法满足的基本性质。 1. 常用阅读全文

posted @ 2025-05-23 10:11 wang_yb 阅读(649) 评论(0) 推荐(0)

不同数据场景下的聚类算法

摘要：在数据分析和机器学习领域，聚类是一种非常重要的无监督学习方法，它可以帮助我们发现数据中的内在结构，将相似的数据点分组到一起。本文将介绍几种常见的聚类算法，包括原型聚类（如 k-均值、学习向量量化、高斯混合聚类）、密度聚类（DBSCAN）和层次聚类（AGNES）。通过浅显易懂的方式介绍它们的原理，阅读全文

posted @ 2025-05-26 11:02 wang_yb 阅读(1728) 评论(0) 推荐(1)

降维技术：带你走进数据的“瘦身”世界

摘要：在机器学习和数据分析中，数据的维度常常是一个让人头疼的问题。想象一下，你面前有一张包含成千上万列特征的表格，每一列都可能是一个重要的信息源，但同时也会让计算变得异常复杂。这时候，降维技术就派上用场了！它可以帮助我们把高维数据“瘦身”成低维数据，同时尽可能保留有用的信息。今天，介绍几种常见的降维阅读全文

posted @ 2025-05-27 08:37 wang_yb 阅读(793) 评论(2) 推荐(0)

度量学习：让机器学会“距离”的奥秘

摘要：度量学习是一种神奇的机器学习技术，它的核心目标就是教会机器如何更好地衡量不同数据点之间的 “距离” 。在我们日常生活中，距离这个概念很直观，比如两点之间的直线距离。但在机器学习的世界里，数据通常是高维的，比如一张图片可以被表示为一个包含像素值的高维向量。那么，如何衡量这些高维数据之间的相似性或阅读全文

posted @ 2025-05-28 10:13 wang_yb 阅读(835) 评论(0) 推荐(0)

机器学习中的"食材挑选术"：特征选择方法

摘要：想象你要做一道美食，面对琳琅满目的食材，优秀的厨师不会把所有原料都扔进锅里，而是会选择最适合的几种。在机器学习中，特征选择就是这个挑选过程，从原始数据中选择对预测目标最有用的特征（列），就像挑选优质食材一样重要。 1. 什么是特征选择？特征选择是机器学习中一个至关重要的步骤，它从原始数据的众多特阅读全文

posted @ 2025-06-03 10:28 wang_yb 阅读(620) 评论(0) 推荐(0)

稀疏表示与字典学习：让数据“瘦身”的魔法

摘要：在机器学习的世界里，我们常常会遇到各种复杂的数据，它们可能包含大量的特征，但其中真正有用的信息却很少。这就像是在一个杂乱无章的房间里，我们只需要找到那些真正重要的物品，而忽略掉那些无关紧要的杂物。稀疏表示和字典学习就像是整理房间的工具，帮助我们找到那些关键的信息，让数据变得更加简洁和有用。 1. 阅读全文

posted @ 2025-06-06 14:26 wang_yb 阅读(711) 评论(0) 推荐(0)

当机器学习遇见压缩感知：用少量数据重建完整世界

摘要：在数据处理的世界里，我们常常会遇到这样的问题：数据量太大，存储和传输成本高昂，但又不能丢失重要信息。这时候，压缩感知（Compressive Sensing，CS）就像一位神奇的“数据魔法师”，能够帮助我们高效地处理数据。本文我们就来深入了解一下压缩感知是什么，它的原理和作用，以及如何用代码实现阅读全文

posted @ 2025-06-08 12:25 wang_yb 阅读(1453) 评论(0) 推荐(0)

概率图模型：机器学习的结构化概率之道

摘要：当复杂世界的不确定性遇上图的结构化表达，概率图模型应运而生。它可以帮助我们理解和建模变量之间的复杂关系。想象一下，你正在尝试预测明天的天气，你需要考虑温度、湿度、气压等多种因素，这些因素之间存在着复杂的相互作用。概率图模型就像是一张“关系网”，能够清晰地表示这些因素之间的依赖关系，并帮助我们进阅读全文

posted @ 2025-06-09 11:19 wang_yb 阅读(617) 评论(0) 推荐(0)

规则学习：让机器学习像人类一样思考的可解释之路

摘要：在机器学习领域，规则学习是一颗独特的明珠--它不像深度学习那样神秘，而是用人类可读的"如果-那么"规则来做出决策。想象一下医生通过一系列症状判断疾病，或者风控系统根据用户行为拒绝贷款，规则学习的魅力正在于这种透明可解释性。 1. 基本概念规则学习的目标是从数据中提取出一系列的规则，这些规则能够帮阅读全文

posted @ 2025-06-11 09:23 wang_yb 阅读(804) 评论(0) 推荐(1)

回归分析全家桶（16种回归模型实现方式总结）

摘要：提到回归分析，很多人第一时间想到的只有“线性回归”和“逻辑回归”。但实际上，针对不同的数据情况（比如有离群点、数据是计数的、数据有缺失截断等），我们有十几种回归模型可以选择。今天为大家总结了 16种回归分析的模型，重点不是介绍这些回归模型的原理，而是介绍如何在Python代码中使用这些模型，希望阅读全文

posted @ 2025-12-30 14:47 wang_yb 阅读(1104) 评论(2) 推荐(3)

决策树极简入门

摘要：

决策树极简入门

我们在学习机器学习算法时，往往会被各种枯燥的数学公式所劝退。今天，我将尝试用结合实际生活的方式，来介绍一个非常经典，而且可能是最“懂你心意”的算法——决策树 (Decision Tree)。。别被这个术语吓到了，其实你每天点外卖的时候都在用它。想象一下，下午三点，你站在奶茶店门口（或者打开了外阅读全文

posted @ 2026-02-07 08:06 wang_yb 阅读(396) 评论(0) 推荐(2)