随笔分类 -  机器学习

摘要:在贝叶斯回归中,判断回归系数是否显著通常是通过可信区间(credible interval)来进行的。下面是具体的标准和方法: 判断回归系数是否显著的标准: 可信区间 (Credible Interval) 不包含零: 标准:如果回归系数的 95% 可信区间不包含零,那么我们认为这个回归系数在统计上 阅读全文
posted @ 2024-11-29 11:05 王哲MGG_AI 阅读(141) 评论(3) 推荐(0) 编辑
摘要:嵌入式特征选择(Embedded Feature Selection)是一种在模型训练过程中自动选择重要特征的方法。相比前向逐步选择或随机抽样等独立的特征选择步骤,嵌入式特征选择能直接在模型构建中融入特征选择逻辑。其中,**L1 正则化(Lasso)**是一种典型的嵌入式特征选择方法。 什么是 L1 阅读全文
posted @ 2024-10-31 17:40 王哲MGG_AI 阅读(107) 评论(0) 推荐(0) 编辑
摘要:1. lambda_l1(L1正则化) 含义:L1 正则化系数,它会对每个叶子节点的分数进行稀疏化处理,目的是减少模型中的不必要特征,减少过拟合。 默认值:0(即不进行 L1 正则化) 如何调整: 增大 lambda_l1:可以增加稀疏性,帮助模型在数据特征过多时减少不必要的特征。增大 lambda 阅读全文
posted @ 2024-10-31 16:15 王哲MGG_AI 阅读(663) 评论(0) 推荐(0) 编辑
摘要:1. num_leaves 含义:num_leaves 控制每棵树可以生成的叶子节点数,代表模型的复杂性。更高的叶子节点数意味着模型可以捕捉更细致的特征关系,但也更容易过拟合。 默认值:通常设置在 31 或 64。 如何调整: 增大 num_leaves:增大叶子数能够提升模型的拟合能力,但容易过拟 阅读全文
posted @ 2024-10-31 15:43 王哲MGG_AI 阅读(551) 评论(0) 推荐(0) 编辑
摘要:时滞回归分析是一种统计方法,用于研究一个变量的过去值如何影响另一个变量的当前值。在日常生活中,很多事物的影响不是立即显现的,而是经过一段时间后才表现出来,这就是“时滞”的概念。时滞回归分析正是用来研究这种延迟效应的。 基本概念 想象一下你在照顾一盆植物。你浇水的量(一个变量)不会立刻影响植物的生长情 阅读全文
posted @ 2024-04-17 17:36 王哲MGG_AI 阅读(95) 评论(0) 推荐(1) 编辑
摘要:“留一法"是一种常用的模型验证方法,也被称为"留一交叉验证”。这种方法的基本思想是:如果有N个样本,我们就进行N次训练和验证,每次选择一个样本作为测试集,其余的N-1个样本作为训练集。这样,我们就可以得到N个模型的测试结果,然后对这N个结果取平均,作为最终的模型性能。 这种方法的优点是每个样本都被用 阅读全文
posted @ 2023-11-28 15:04 王哲MGG_AI 阅读(523) 评论(0) 推荐(0) 编辑
摘要:1.初始化步骤 import numpy as np from utils.features import prepare_for_training class LinearRegression: def __init__(self, data, labels, polynomial_degree= 阅读全文
posted @ 2023-11-18 15:54 王哲MGG_AI 阅读(264) 评论(0) 推荐(1) 编辑
摘要:线性回归中的梯度下降是一种优化算法,用于找到使线性回归模型拟合数据最好的参数值。下面是关于线性回归中梯度下降的详细解释: 1. 线性回归模型: 线性回归模型的基本形式是: 2. 梯度下降的目标: 梯度下降的目标是最小化损失函数,即观测值和模型预测值之间的差异。在线性回归中,通常采用均方误差(Mean 阅读全文
posted @ 2023-11-17 15:39 王哲MGG_AI 阅读(123) 评论(0) 推荐(1) 编辑
摘要:似然函数是统计学和机器学习中一个关键的概念,它在参数估计和模型选择等方面发挥着重要作用。下面详细解释似然函数的定义和作用: 1. 定义: 似然函数通常用 L(θ∣X) 表示,其中 θ 是模型参数,X 是观测到的数据。似然函数描述了在给定一组参数 θ 的条件下,观测到数据 X 的概率。 2. 作用: 阅读全文
posted @ 2023-11-17 15:18 王哲MGG_AI 阅读(117) 评论(0) 推荐(0) 编辑
摘要:"独立同分布" 是统计学和机器学习中一个重要的概念。让我们更详细地探讨这个概念的含义: 独立性(Independence): 独立性的意义: 当我们说随机变量是独立的时,意味着一个随机变量的取值不会提供关于另一个随机变量取值的任何信息。换句话说,知道一个随机变量的取值并不会改变对另一个随机变量的预测 阅读全文
posted @ 2023-11-17 15:01 王哲MGG_AI 阅读(535) 评论(0) 推荐(0) 编辑
摘要:误差项是在统计学和机器学习中经常用来描述模型预测与真实观测之间的差异的术语。在线性回归中,误差项通常用符号 ϵ(epsilon)表示。这个项表示了模型无法捕捉或解释的因素,也就是不能被自变量完全解释的变异性。 具体来说,线性回归模型的基本形式为: 关于误差项的一些关键点: 随机性: 误差项通常被假设 阅读全文
posted @ 2023-11-17 10:57 王哲MGG_AI 阅读(295) 评论(0) 推荐(0) 编辑
摘要:线性回归是一种用于建模和分析两个变量之间关系的统计方法。在简单线性回归中,我们考虑一个自变量(输入特征)和一个因变量(输出目标)之间的线性关系。这个关系可以表示为一条直线,其方程可以用来预测因变量的值。 以下是线性回归的基本步骤和概念: 问题定义: 确定问题,并明确自变量和因变量。例如,我们想要预测 阅读全文
posted @ 2023-11-17 10:46 王哲MGG_AI 阅读(20) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示