机器学习八股文 - 随笔分类 - 合唱团abc

15、样本不均衡

摘要：1、样本不均衡可能带来的问题模型训练的本质是最小化损失函数，当某个类别的样本数量非常庞大，损失函数的值大部分被样本数量较大的类别所影响，导致的结果就是模型分类会倾向于样本量较大的类别。咱们拿上面文本分类的例子来说明，现在有1W条用户搜索的样本，其中50条和传奇游戏标签有关，9950条和传奇游戏标签阅读全文

posted @ 2022-07-11 19:50 合唱团abc 阅读(231) 评论(0) 推荐(0) 编辑

14、模型评估中常用的验证方法

摘要：在机器学习中，我们通常把样本分为训练集和测试集，训练集用于训练模型，测试集用于评估模型。在样本划分和模型验证的过程中，存在着不同的抽样方法和验证方法。 1）Holdout检验Holdout 检验是最简单也是最直接的验证方法，它将原始的样本集合随机划分成训练集和验证集两部分。比方说，对于一个点击率预测阅读全文

posted @ 2022-06-29 20:26 合唱团abc 阅读(668) 评论(0) 推荐(0) 编辑

13、模型数据缺失值的处理

摘要：插补： 1、特殊值填充（Treating Missing Attribute values as Special values）将空值作为一种特殊的属性值来处理，它不同于其他的任何属性值。如所有的空值都用“unknown”填充。一般作为临时填充或中间过程。有时可能导致严重的数据偏离，一般不推荐。阅读全文

posted @ 2022-06-29 08:46 合唱团abc 阅读(584) 评论(0) 推荐(0) 编辑

12、优化算法

摘要：在机器学习算法中，对于很多监督学习模型，需要对原始的模型构建损失函数，之后通过优化算法对损失函数进行优化，寻找到最优的参数。求解机器学习参数的优化算法中，使用较多的是基于梯度下降的优化算法(Gradient Descent, GD)，梯度下降法的含义是通过当前点的梯度方向寻找到新的迭代点。基本思想可阅读全文

posted @ 2022-06-27 16:21 合唱团abc 阅读(225) 评论(0) 推荐(0) 编辑

11、Boosting vs Bagging

摘要：。阅读全文

posted @ 2022-06-24 15:56 合唱团abc 阅读(69) 评论(0) 推荐(0) 编辑

10、神经网络权重初始化

摘要：参考： https://zhuanlan.zhihu.com/p/86602524 阅读全文

posted @ 2022-06-16 21:46 合唱团abc 阅读(39) 评论(0) 推荐(0) 编辑

9、dropout

摘要：参考： https://zhuanlan.zhihu.com/p/38200980 https://blog.csdn.net/songyunli1111/article/details/89071021 阅读全文

posted @ 2022-06-16 21:40 合唱团abc 阅读(56) 评论(0) 推荐(0) 编辑

8、算法中的偏差、方差和噪声

摘要：参考： https://www.sohu.com/a/317862976_654419 阅读全文

posted @ 2022-06-16 21:36 合唱团abc 阅读(53) 评论(0) 推荐(0) 编辑

7、反向传播推导

摘要：。阅读全文

posted @ 2022-06-16 21:20 合唱团abc 阅读(32) 评论(0) 推荐(0) 编辑

6、激活函数

摘要：激活函数的主要作用是提供网络的非线性建模能力，如果没有激活函数，那么该网络仅能够表达线性映射，即便有再多的隐藏层，其整个网络跟单层神经网络也是等价的。 Sigmoid Sigmoid函数的导数是其本身的函数，即f′(x)=f(x)(1−f(x))，计算非常方便，也非常节省计算时间。具有这种性质的称阅读全文

posted @ 2022-06-16 21:09 合唱团abc 阅读(181) 评论(0) 推荐(0) 编辑

5、极大似然估计

摘要：极大似然估计，通俗理解来说，就是利用已知的样本结果信息，反推最具有可能（最大概率）导致这些样本结果出现的模型参数值！换句话说，极大似然估计提供了一种给定观察数据来评估模型参数的方法，即：“模型已定，参数未知”。极大似然估计中采样需满足一个重要的假设，就是所有的采样都是独立同分布的。首先看一下似阅读全文

posted @ 2022-01-05 20:27 合唱团abc 阅读(213) 评论(0) 推荐(0) 编辑

4、交叉熵与softmax

摘要：1、交叉熵的来源一条信息的信息量大小和它反映的事件的不确定性有很大的关系，不确定性越大，则信息量越大。一句话如果需要很多外部信息才能确定，我们就称这句话的信息量比较大。比如你听到“云南西双版纳下雪了”，那你需要去看天气预报、问当地人等等查证（因为云南西双版纳从没下过雪）。相反，如果和你说“人一天要阅读全文

posted @ 2021-12-30 16:20 合唱团abc 阅读(511) 评论(0) 推荐(0) 编辑

3、逻辑回归 && 正则化

摘要：Logistic 回归的本质是：假设数据服从Logistic分布，然后使用极大似然估计做参数的估计。 1、Logistic 分布 Logistic 分布是一种连续型的概率分布，其分布函数和密度函数分别为：其中，表示位置参数，为形状参数。我们可以看下其图像特征： Logistic 分布的形状与正阅读全文

posted @ 2021-12-22 19:51 合唱团abc 阅读(416) 评论(0) 推荐(0) 编辑

2、卷积核，感受野

摘要：在卷积神经网络中，感受野的定义是卷积神经网络每一层输出的特征图（feature map）上的像素点在原始图像上映射的区域大小。原始输入为5*5大小，使用一个5*5大小的核，处理它，得到的结果为1*1大小，卷积核参数为25。原始输入是5*5大小，使用两次3*3大小的核，处理它，得到的结果为1* 阅读全文

posted @ 2021-12-21 21:01 合唱团abc 阅读(998) 评论(0) 推荐(0) 编辑

1、Batch Normalization

摘要：背景：深度神经网络涉及到很多层的叠加，而每一层的参数更新会导致上层的输入数据分布发生变化，通过层层叠加，高层的输入分布变化会非常剧烈，这就使得高层需要不断去重新适应底层的参数更新。Google 将这一现象总结为 Internal Covariate Shift，简称 ICS. 所以ICS是什么呢？将阅读全文

posted @ 2021-12-06 20:29 合唱团abc 阅读(206) 评论(0) 推荐(0) 编辑

0、模型评价指标【AUC原理、roc曲线等】

摘要：分类模型评估：指标描述 Scikit-learn函数 Precision AUC from sklearn.metrics import precision_score Recall 召回率 from sklearn.metrics import recall_score F1 F1值 from 阅读全文

posted @ 2021-10-25 21:06 合唱团abc 阅读(554) 评论(0) 推荐(0) 编辑

合唱团abc

随笔分类 - 机器学习八股文

公告

搜索

常用链接

我的标签

随笔分类 (377)

随笔档案 (380)

阅读排行榜

评论排行榜

推荐排行榜

最新评论