摘要:
定义 K - 近邻(K - Nearest Neighbors,KNN)模型是一种基于实例的监督学习算法。它的基本思想是给定一个训练数据集,对于一个新的输入实例,在训练数据集中找到与它最相似(距离最近)的K个实例,然后根据这K个实例的类别(对于分类问题)或数值(对于回归问题)来预测新实例的类别或数值 阅读全文
摘要:
一、贝叶斯定理基础 概率基础 概率是对事件发生可能性的度量。例如,在一个装有红球和蓝球的盒子中,红球占比为 \(p\),那么随机取出一个红球的概率就是 \(p\)。 条件概率是指在某个事件已经发生的条件下,另一个事件发生的概率。如果事件 \(A\) 和 \(B\),那么条件概率 \(P(A|B)\) 阅读全文
摘要:
一、基本原理 线性可分情况 假设我们有一个二分类问题,数据点在特征空间中是线性可分的。SVM的目标是找到一个超平面,将不同类别的数据点完全分开。这个超平面可以用方程\(w^Tx + b = 0\)来表示,其中\(w\)是权重向量,\(x\)是特征向量,\(b\)是偏置项。 对于线性可分的数据,存在无 阅读全文
摘要:
一、基本概念 定义 梯度提升树(Gradient Boosting Tree,GBT)是一种基于boosting框架的集成学习算法,用于回归和分类问题。它通过迭代地训练决策树,并将前一棵树的残差作为下一棵树的训练目标,逐步减少预测误差。 集成学习是将多个弱学习器(在梯度提升树中,弱学习器通常是决策树 阅读全文
摘要:
一、基本概念 集成学习 集成学习是将多个机器学习模型组合起来,以获得比单个模型更好的性能。随机森林就是一种集成学习方法,它通过构建多个决策树并综合它们的结果来进行预测。 例如,在预测天气是晴天还是雨天时,集成学习就像是询问多个气象专家(每个专家相当于一个决策树)的意见,然后综合这些意见来做出更准确的 阅读全文
摘要:
定义与基本概念 决策树是一种基于树结构(包括根节点、内部节点、叶节点)进行决策的模型。根节点是整个决策过程的开始,内部节点代表一个属性上的测试,叶节点代表最终的决策结果或类别。 例如,在一个判断水果是苹果还是橙子的决策树中,根节点可能是“颜色”这个属性,内部节点可以是“形状”等其他属性,叶节点则是“ 阅读全文
摘要:
一、基本概念 定义与用途 逻辑回归主要用于二分类问题,例如预测一个用户是否会购买某产品(是/否)、一封邮件是否是垃圾邮件(是/否)等。它也可以扩展到多分类问题,但本质上是通过组合多个二分类来实现的。 逻辑回归模型输出的是事件发生的概率,而不是像线性回归那样直接输出一个数值。 与线性回归的区别 线性回 阅读全文
摘要:
一、监督学习算法 线性回归(Linear Regression) 简单线性回归:用于建立一个自变量和一个因变量之间的线性关系,例如根据房屋面积预测房价,其模型表达式为\(y = \beta_0+\beta_1x+\epsilon\),其中\(y\)是因变量(房价),\(x\)是自变量(房屋面积),\ 阅读全文
摘要:
一、引言 机器学习作为人工智能领域的核心分支,旨在让计算机系统从数据中自动学习模式和规律,以实现对未知数据的预测和决策。在当今数字化时代,机器学习已经广泛应用于各个领域,从图像识别、语音识别到金融预测、医疗诊断等,为解决复杂问题提供了强大的工具和方法。 二、机器学习基础概念 数据:是机器学习的核心, 阅读全文
摘要:
一、基本概念 定义 线性回归是一种统计分析方法,用于研究一个或多个自变量(解释变量)与一个因变量(被解释变量)之间的线性关系。它试图找到一条最佳拟合直线(在简单线性回归中)或超平面(在多元线性回归中),使得因变量的预测值与实际值之间的误差最小。 简单线性回归模型的数学表达式为:\(y = \beta 阅读全文