01 2024 档案
摘要:前面两篇介绍了分类模型评估的两类方法,准确率分析和损失分析,本篇介绍的杰卡德相似系数和马修斯相关系数为我们提供了不同的角度来观察模型的性能,尤其在不平衡数据场景中,它们更能体现出其独特的价值。 接下来,让我们一起了解这两个评估指标的原理与特点。 1. 杰卡德相似系数 杰卡德相似系数(Jaccard
阅读全文
摘要:分类模型评估中,通过各类损失(loss)函数的分析,可以衡量模型预测结果与真实值之间的差异。不同的损失函数可用于不同类型的分类问题,以便更好地评估模型的性能。 本篇将介绍分类模型评估中常用的几种损失计算方法。 1. 汉明损失 Hamming loss(汉明损失)是一种衡量分类模型预测错误率的指标。它
阅读全文
摘要:使用 pandas 进行数据分析时,第一步就是读取文件。在平时学习和练习的过程中,用到的数据量不会太大,所以读取文件的步骤往往会被我们忽视。 然而,在实际场景中,面对十万,百万级别的数据量是家常便饭,即使千万,上亿级别的数据,单机处理也问题不大。不过,当数据量和数据属性多了之后,读取文件的性能瓶颈就
阅读全文
摘要:分类模型的评估和回归模型的评估侧重点不一样,回归模型一般针对连续型的数据,而分类模型一般针对的是离散的数据。 所以,评估分类模型时,评估指标与回归模型也很不一样,比如,分类模型的评估指标通常包括准确率、精确率、召回率和F1分数等等。而回归模型的评估指标通常包括均方误差(MSE)、均方根误差(RMSE
阅读全文
摘要:在scikit-learn中,回归模型的可视化评估是一个重要环节。它帮助我们理解模型的性能,分析模型的预测能力,以及检查模型是否存在潜在的问题。通过可视化评估,我们可以更直观地了解回归模型的效果,而不仅仅依赖于传统的评估指标。 1. 残差图 所谓残差,就是实际观测值与预测值之间的差值。 残差图是指以
阅读全文
摘要:模型评估在统计学和机器学习中具有至关重要,它帮助我们主要目标是量化模型预测新数据的能力。 本篇主要介绍模型评估时,如何利用scikit-learn帮助我们快速进行各种偏差的分析。 1. **R² ** 分数 R² 分数(也叫决定系数),用于衡量模型预测的拟合优度,它表示模型中因变量的变异中,可由自变
阅读全文
摘要:模型评估在统计学和机器学习中具有至关重要,它帮助我们主要目标是量化模型预测新数据的能力。 在这个数据充斥的时代,没有评估的模型就如同盲人摸象,可能带来误导和误判。模型评估不仅是一种方法,更是一种保障,确保我们在数据海洋中航行时,能够依赖准确的模型,做出明智的决策。 本篇主要介绍模型评估时,如何利用s
阅读全文
摘要:空间聚类算法是数据挖掘和机器学习领域中的一种重要技术。 本篇介绍的基于密度的空间聚类算法的概念可以追溯到1990年代初期。随着数据量的增长和数据维度的增加,基于密度的算法逐渐引起了研究者的关注。其中,DBSCAN(Density-Based Spatial Clustering of Applica
阅读全文
摘要:谱聚类算法基于图论,它的起源可以追溯到早期的图分割文献。不过,直至近年来,受益于计算机计算能力的提升,谱聚类算法才得到了广泛的研究和关注。 谱聚类被广泛应用于图像分割、社交网络分析、推荐系统、文本聚类等领域。例如,在图像分割中,谱聚类可以有效地将图像划分为背景和前景;在社交网络分析中,它可以识别出不
阅读全文
摘要:贝叶斯公式由英国数学家贝叶斯发展而来,在统计学和概率论中有着广泛的应用。与传统的先验概率不同,它提出的后验概率方式,会根据不断出现的新证据来更新概率估计,从而使得估计的准确性能够不断改善。 本文尝试通过一个简单的预测天气的示例来讲解后验概率是怎么回事,以及如何根据它推导出贝叶斯公式的。 1. 从预测
阅读全文
摘要:层次聚类算法是机器学习中常用的一种无监督学习算法,它用于将数据分为多个类别或层次。该方法在计算机科学、生物学、社会学等多个领域都有广泛应用。 层次聚类算法的历史可以追溯到上世纪60年代,当时它主要被用于社会科学中。随着计算机技术的发展,这种方法在90年代得到了更为广泛的应用。 1. 算法概述 层次聚
阅读全文
摘要:聚类算法属于无监督学习,其中最常见的是均值聚类,scikit-learn中,有两种常用的均值聚类算法:一种是有名的K-means(也就是K-均值)聚类算法,这个算法几乎是学习聚类必会提到的算法;另一个是均值偏移聚类,它与K-means各有千秋,只是针对的应用场景不太一样,但是知名度远不如K-Mean
阅读全文
摘要:支持向量机也是一种既可以处理分类问题,也可以处理回归问题的算法。关于支持向量机在回归问题上的应用,请参考:TODO 支持向量机分类广泛应用于图像识别、文本分类、生物信息学(例如基因分类)、手写数字识别等领域。 1. 算法概述 支持向量机的主要思想是找到一个超平面,将不同类别的样本最大化地分隔开。超平
阅读全文
摘要:随机森林分类算法是一种基于集成学习(ensemble learning)的机器学习算法,它的基本原理是通过对多个决策树的预测结果进行平均或投票,以产生最终的分类结果。 随机森林算法可用于回归和分类问题。关于随机森林算法在回归问题上的应用可参考:TODO 随机森林分类算法可以应用于各种需要进行分类或预
阅读全文
摘要:机器学习作为人工智能的一种最重要的实现方式,其历史可以追溯到20世纪50年代。只不过,早期受制于计算机的算力,基本没有什么能够落地的实际应用,更多的是各类算法的研究和发展。 之后,随着硬件的飞速发展,终于迎来了人工智能的春天,各种机器学习的算法在我们的日常生活中得到了广泛应用(很多情况甚至我们都没有
阅读全文
摘要:决策树分类算法是一种监督学习算法,它的基本原理是将数据集通过一系列的问题进行拆分,这些问题被视为决策树的叶子节点和内部节点。决策树的每个分支代表一个可能的决策结果,而每个叶子节点代表一个最终的分类结果。 决策树分类算法的历史可以追溯到1980年代初,当时研究者开始探索用机器学习来解决分类问题。在19
阅读全文
摘要:贝叶斯分类是一种统计学分类方法,基于贝叶斯定理,对给定的数据集进行分类。它的历史可以追溯到18世纪,当时英国统计学家托马斯·贝叶斯发展了贝叶斯定理,这个定理为统计决策提供了理论基础。 不过,贝叶斯分类在实际应用中的广泛使用是在20世纪80年代,当时计算机技术的进步使得大规模数据处理成为可能。 1.
阅读全文
摘要:逻辑回归这个算法的名称有一定的误导性。虽然它的名称中有“回归”,当它在机器学习中不是回归算法,而是分类算法。因为采用了与回归类似的思想来解决分类问题,所以它的名称才会是逻辑回归。 逻辑回归的思想可以追溯到19世纪,由英国统计学家Francis Galton在研究豌豆遗传问题时首次提出。然而,真正将逻
阅读全文
摘要:KNN(K-近邻),全称K-Nearest Neighbors,是一种常用的分类算法。KNN算法的历史可以追溯到1957年,当时Cover和Hart提出了“最近邻分类”的概念。但是,这个算法真正得到广泛认知和应用是在1992年,由Altman发表的一篇名为“K-Nearest Neighbors”的
阅读全文
摘要:随机森林回归(Random Forest Regression)是一种在机器学习领域广泛应用的算法,由美国科学家 Leo Breiman 在2001年提出。它是一种集成学习方法,通过整合多个决策树的预测结果来提高预测精度和稳定性。 随机森林回归适用于各种需要预测连续数值输出的问题,如金融领域的股票价
阅读全文
摘要:决策树算法是一种既可以用于分类,也可以用于回归的算法。 决策树回归是通过对输入特征的不断划分来建立一棵决策树,每一步划分都基于当前数据集的最优划分特征。它的目标是最小化总体误差或最大化预测精度,其构建通常采用自上而下的贪心搜索方式,通过比较不同划分标准来选择最优划分。 决策树回归广泛应用于各种回归问
阅读全文