12 2023 档案

摘要:在机器学习中,支持向量机(Support Vector Machine)算法既可以用于回归问题,也可以用于分类问题。 支持向量机(SVM)算法的历史可以追溯到1963年,当时前苏联统计学家弗拉基米尔·瓦普尼克(Vladimir N. Vapnik)和他的同事阿列克谢·切尔沃宁基斯(Alexey Ya 阅读全文
posted @ 2023-12-31 22:16 wang_yb 阅读(983) 评论(0) 推荐(0) 编辑
摘要:LASSO(Least Absolute Shrinkage and Selection Operator)回归模型一般都是用英文缩写表示,硬要翻译的话,可翻译为 最小绝对收缩和选择算子。 它是一种线性回归模型的扩展,其主要目标是解决高维数据中的特征选择和正则化问题。 1. 概述 在LASSO中,通 阅读全文
posted @ 2023-12-28 08:42 wang_yb 阅读(808) 评论(0) 推荐(0) 编辑
摘要:岭回归(Ridge Regression)是一种用于处理共线性数据的线性回归改进方法。和上一篇用基于最小二乘法的线性回归相比,它通过放弃最小二乘的无偏性,以损失部分信息、降低精度为代价来获得更实际和可靠性更强的回归系数。 1. 概述 岭回归的模型对于存在大量相关特征(这些特征之间存在很高的相关性)的 阅读全文
posted @ 2023-12-26 11:16 wang_yb 阅读(376) 评论(0) 推荐(0) 编辑
摘要:线性回归是一种用于连续型分布预测的机器学习算法。其基本思想是通过拟合一个线性函数来最小化样本数据和预测函数之间的误差。 1. 概述 常见的线性回归模型就是:\(f(x) = w_0+w_1x_1+w_2x_2+...+w_nx_n\)这样的一个函数。其中 \((w_1,w_2,...w_n)\)是模 阅读全文
posted @ 2023-12-25 10:06 wang_yb 阅读(305) 评论(0) 推荐(0) 编辑
摘要:数据的预处理是数据分析,或者机器学习训练前的重要步骤。通过数据预处理,可以 提高数据质量,处理数据的缺失值、异常值和重复值等问题,增加数据的准确性和可靠性 整合不同数据,数据的来源和结构可能多种多样,分析和训练前要整合成一个数据集 提高数据性能,对数据的值进行变换,规约等(比如无量纲化),让算法更加 阅读全文
posted @ 2023-12-22 12:36 wang_yb 阅读(393) 评论(0) 推荐(2) 编辑
摘要:数据的预处理是数据分析,或者机器学习训练前的重要步骤。通过数据预处理,可以 提高数据质量,处理数据的缺失值、异常值和重复值等问题,增加数据的准确性和可靠性 整合不同数据,数据的来源和结构可能多种多样,分析和训练前要整合成一个数据集 提高数据性能,对数据的值进行变换,规约等(比如无量纲化),让算法更加 阅读全文
posted @ 2023-12-21 09:59 wang_yb 阅读(414) 评论(0) 推荐(0) 编辑
摘要:数据的预处理是数据分析,或者机器学习训练前的重要步骤。通过数据预处理,可以 提高数据质量,处理数据的缺失值、异常值和重复值等问题,增加数据的准确性和可靠性 整合不同数据,数据的来源和结构可能多种多样,分析和训练前要整合成一个数据集 提高数据性能,对数据的值进行变换,规约等(比如无量纲化),让算法更加 阅读全文
posted @ 2023-12-20 09:28 wang_yb 阅读(315) 评论(0) 推荐(1) 编辑
摘要:数据的预处理是数据分析,或者机器学习训练前的重要步骤。通过数据预处理,可以 提高数据质量,处理数据的缺失值、异常值和重复值等问题,增加数据的准确性和可靠性 整合不同数据,数据的来源和结构可能多种多样,分析和训练前要整合成一个数据集 提高数据性能,对数据的值进行变换,规约等(比如无量纲化),让算法更加 阅读全文
posted @ 2023-12-18 09:49 wang_yb 阅读(408) 评论(0) 推荐(0) 编辑
摘要:数据的预处理是数据分析,或者机器学习训练前的重要步骤。通过数据预处理,可以 提高数据质量,处理数据的缺失值、异常值和重复值等问题,增加数据的准确性和可靠性 整合不同数据,数据的来源和结构可能多种多样,分析和训练前要整合成一个数据集 提高数据性能,对数据的值进行变换,规约等(比如无量纲化),让算法更加 阅读全文
posted @ 2023-12-15 08:50 wang_yb 阅读(417) 评论(0) 推荐(1) 编辑
摘要:数据的预处理是数据分析,或者机器学习训练前的重要步骤。通过数据预处理,可以 提高数据质量,处理数据的缺失值、异常值和重复值等问题,增加数据的准确性和可靠性 整合不同数据,数据的来源和结构可能多种多样,分析和训练前要整合成一个数据集 提高数据性能,对数据的值进行变换,规约等(比如无量纲化),让算法更加 阅读全文
posted @ 2023-12-13 14:22 wang_yb 阅读(525) 评论(0) 推荐(2) 编辑
摘要:命令行的历史可以追溯到Unix操作系统的起源,也就是1969年,Unix诞生之时,前辈们就已经用命令行来和操作系统交互了。 随着计算机性能的飞速发展,图形化的操作界面逐渐成为主流,命令行工具离普通用户越来越远。这些年来,图形界面的发展不仅仅表现在界面越来越美观,其操作方式也越来越丰富,不只是早期的鼠 阅读全文
posted @ 2023-12-10 15:04 wang_yb 阅读(1054) 评论(0) 推荐(0) 编辑
摘要:这是scikit-learn数据加载系列的最后一篇,本篇介绍如何加载外部的数据集。 外部数据集不像之前介绍的几种类型的数据集那样,针对每种数据提供对应的接口,每个接口加载的数据都是固定的。而外部数据集加载之后,数据的字段和类型是不确定的。 简单来说,我们在实际的数据分析工作中,用到的是外部数据集加载 阅读全文
posted @ 2023-12-09 10:23 wang_yb 阅读(387) 评论(0) 推荐(0) 编辑
摘要:除了内置的数据集,scikit-learn还提供了随机样本的生成器。通过这些生成器函数,可以生成具有特定特性和分布的随机数据集,以帮助进行机器学习算法的研究、测试和比较。 目前,scikit-learn库(v1.3.0版)中有20个不同的生成样本的函数。本篇重点介绍其中几个具有代表性的函数。 1. 阅读全文
posted @ 2023-12-08 08:35 wang_yb 阅读(654) 评论(0) 推荐(3) 编辑
摘要:上一篇介绍了scikit-learn中的几个玩具数据集,本篇介绍scikit-learn提供的一些真实的数据集。玩具数据集:scikit-learn 基础(01)--『数据加载』之玩具数据集 1. 获取数据集 与玩具数据集不同,真实的数据集的数据不仅数据特征多,而且数据量也比较大,所以没有直接包含在 阅读全文
posted @ 2023-12-06 09:43 wang_yb 阅读(678) 评论(3) 推荐(3) 编辑
摘要:机器学习的第一步是准备数据,好的数据能帮助我们加深对机器学习算法的理解。 不管是在学习还是实际工作中,准备数据永远是一个枯燥乏味的步骤。scikit-learn库显然看到了这个痛点,才在它的数据加载子模块中为我们准备了直接可用的数据集。 在它的数据加载子模块中,提供了6种直接可用来学习算法的经典数据 阅读全文
posted @ 2023-12-04 11:08 wang_yb 阅读(852) 评论(3) 推荐(1) 编辑
摘要:Scikit-learn是一个基于Python的开源机器学习库,它提供了大量的机器学习算法和工具,方便用户进行数据挖掘、分析和预测。 Scikit-learn是基于另外两个知名的库 Scipy 和 Numpy的,关于 Scipy 和 Numpy 等库,之前的系列文章中有介绍: Scipy 基础系列 阅读全文
posted @ 2023-12-02 14:18 wang_yb 阅读(951) 评论(0) 推荐(2) 编辑