随笔分类 -  机器学习

摘要:GBDT和XGBoost的区别 GBDT是机器学习算法,XGBoost是该算法的工程实现。 在使用CART作为基分类器时,XGBoost显式地加入了正则项来控制模型的复杂度,有利于防止过拟合,从而提高模型的泛化能力。 GBDT在模型训练时只使用了代价函数的一阶导数信息,XGBoost对代价函数进行二 阅读全文
posted @ 2022-02-24 11:56 suwenyuan 阅读(65) 评论(0) 推荐(0) 编辑
摘要:1.图形化 偏差:描述的是预测值(估计值)的期望与真实值之间的差距。偏差越大,越偏离真实数据,如下图第二行所示。 方差:描述的是预测值的变化范围,离散程度,也就是离其期望值的距离。方差越大,数据的分布越分散,如下图右列所示。 2.公式 以回归任务为例,学习算法的期望预测为: 这里的期望预测也就是针对 阅读全文
posted @ 2021-04-27 14:48 suwenyuan 阅读(645) 评论(0) 推荐(0) 编辑
摘要:1.Batch Normalization feature map:xRN×C×H×W ,包含 N 个样本,每个样本通道数为 C,高为 H,宽为 W。对其求均值和方差时,将在 N、H、W上操作,而保留通道 C 的维度。具体来说, 阅读全文
posted @ 2020-04-23 23:19 suwenyuan 阅读(673) 评论(0) 推荐(0) 编辑
摘要:朴素贝叶斯 主要是通过先验概率和条件概率计算后验概率。 目标公式如下: 举例:假设Y是好瓜,X是色泽 给定P(Y),就是好瓜的概率;P(X|Y),就是好瓜中某一色泽占得比重;求解P(Y|X),就是给定色泽求解好瓜的概率。 阅读全文
posted @ 2020-03-13 11:15 suwenyuan 阅读(193) 评论(0) 推荐(0) 编辑
摘要:一、基本概念 GBDT (Gradient Boosting Decision Tree) 梯度提升迭代决策树。 GBDT通过多轮迭代,每轮迭代产生一个弱分类器,每个分类器在上一轮分类器的残差基础上进行训练。 弱分类器一般会选择为CART TREE(也就是分类回归树)。 每一轮预测和实际值有残差,下 阅读全文
posted @ 2020-03-12 16:59 suwenyuan 阅读(198) 评论(0) 推荐(0) 编辑
摘要:一、简介 说到推荐系统,我们肯定是要问它是为什么而存在的,即存在的意义是什么。 随着当今技术的飞速发展,数据量也与日俱增,人们越来越感觉在海量数据面前束手无策。正是为了解决信息过载(Information overload)的问题,人们提出了推荐系统(与搜索引擎对应,人们习惯叫推荐系统为推荐引擎)。 阅读全文
posted @ 2020-03-12 11:52 suwenyuan 阅读(361) 评论(0) 推荐(0) 编辑
摘要:1. 信息量 首先是信息量。假设我们听到了两件事,分别如下: 事件A:巴西队进入了2018世界杯决赛圈。 事件B:中国队进入了2018世界杯决赛圈。 仅凭直觉来说,显而易见事件B的信息量比事件A的信息量要大。究其原因,是因为事件A发生的概率很大,事件B发生的概率很小。所以当越不可能的事件发生了,我们 阅读全文
posted @ 2020-03-08 15:33 suwenyuan 阅读(381) 评论(0) 推荐(0) 编辑
摘要:一、基本概念 评价指标是针对模型性能优劣的一个定量指标。 一种评价指标只能反映模型一部分性能,如果选择的评价指标不合理,那么可能会得出错误的结论,故而应该针对具体的数据、模型选取不同的的评价指标。 本文将详细介绍机器学习分类任务的常用评价指标:混淆矩阵(Confuse Matrix)、准确率(Acc 阅读全文
posted @ 2020-02-29 18:27 suwenyuan 阅读(623) 评论(0) 推荐(0) 编辑
摘要:一、KNN KNN是一种分类算法,它不具有显式的学习过程。对应的输入是特征空间的点,输出为实例的类别,可以是多类别。 1.算法思路 如果一个样本在特征空间中的k个最邻近的样本中的大多数属于某一个类别,则该样本也划分为这个类别。KNN算法中,所选择的邻居都是已经正确分类的对象。该方法在定类决策上只依据 阅读全文
posted @ 2020-02-27 12:37 suwenyuan 阅读(495) 评论(0) 推荐(0) 编辑
摘要:一、Internal Covariate Shift 论文提出BN是用来解决“Internal Covariate Shift”问题的。如果输入数据经常变换,那么网络模型很难学到泛化的特征。对于深度学习这种包含很多隐层的网络结构,在训练过程中,因为各层参数不停在变化,所以每个隐层都会面临covari 阅读全文
posted @ 2020-01-17 14:20 suwenyuan 阅读(158) 评论(0) 推荐(0) 编辑
摘要:1. 平方损失函数 L2范数损失函数,也被称为最小平方误差(LSE)。它是把目标值yi与估计值f(xi)的差值的平方和最小化。一般回归问题会使用此损失,离群点对次损失影响较大。 L=i=1n(yif(xi))2 2.交叉熵损失函数 分类问题因为输出的是概率,故 阅读全文
posted @ 2020-01-17 10:22 suwenyuan 阅读(1069) 评论(0) 推荐(0) 编辑
摘要:激活函数的作用 如果不用激活函数,每一层输出都是上层输入的线性函数,无论神经网络有多少层,输出都是输入的线性组合。故而激活函数可以增加模型的表达能力。 1.sigmoid函数 sigmoid函数也叫 Logistic 函数,用于隐层神经元输出,取值范围为(0,1),它可以将一个实数映射到(0,1)的 阅读全文
posted @ 2020-01-16 11:29 suwenyuan 阅读(268) 评论(0) 推荐(0) 编辑
摘要:1. Gradient Descent 1.1 Batch Gradient Descent 在每一轮的训练过程中,Batch Gradient Descent算法用整个训练集的数据计算cost fuction的梯度,并用该梯度对模型参数进行更新,其中θ是训练参数,η是学习率 阅读全文
posted @ 2020-01-14 22:23 suwenyuan 阅读(287) 评论(0) 推荐(0) 编辑
摘要:一、易混概念 对于一些常见的距离先做一个简单的说明 1.欧式距离 假设X和Y都是一个n维的向量,即X=x1,x2,x3,xnY=y1,y2,y3,yn 则欧氏距离:D(X,Y)=i=1n(xiyi)2 2.L 阅读全文
posted @ 2019-12-25 17:25 suwenyuan 阅读(6224) 评论(0) 推荐(2) 编辑

点击右上角即可分享
微信分享提示