随笔分类 - 机器学习八股文
摘要:1、样本不均衡可能带来的问题 模型训练的本质是最小化损失函数,当某个类别的样本数量非常庞大,损失函数的值大部分被样本数量较大的类别所影响,导致的结果就是模型分类会倾向于样本量较大的类别。咱们拿上面文本分类的例子来说明,现在有1W条用户搜索的样本,其中50条和传奇游戏标签有关,9950条和传奇游戏标签
阅读全文
摘要:在机器学习中,我们通常把样本分为训练集和测试集,训练集用于训练模型,测试集用于评估模型。在样本划分和模型验证的过程中,存在着不同的抽样方法和验证方法。 1)Holdout检验Holdout 检验是最简单也是最直接的验证方法,它将原始的样本集合随机划分成训练集和验证集两部分。比方说,对于一个点击率预测
阅读全文
摘要:插补: 1、特殊值填充(Treating Missing Attribute values as Special values) 将空值作为一种特殊的属性值来处理,它不同于其他的任何属性值。如所有的空值都用“unknown”填充。一般作为临时填充或中间过程。有时可能导致严重的数据偏离,一般不推荐。
阅读全文
摘要:在机器学习算法中,对于很多监督学习模型,需要对原始的模型构建损失函数,之后通过优化算法对损失函数进行优化,寻找到最优的参数。求解机器学习参数的优化算法中,使用较多的是基于梯度下降的优化算法(Gradient Descent, GD),梯度下降法的含义是通过当前点的梯度方向寻找到新的迭代点。基本思想可
阅读全文
摘要:参考: https://zhuanlan.zhihu.com/p/86602524
阅读全文
摘要:参考: https://zhuanlan.zhihu.com/p/38200980 https://blog.csdn.net/songyunli1111/article/details/89071021
阅读全文
摘要:参考: https://www.sohu.com/a/317862976_654419
阅读全文
摘要:激活函数的主要作用是提供网络的非线性建模能力,如果没有激活函数,那么该网络仅能够表达线性映射,即便有再多的隐藏层,其整个网络跟单层神经网络也是等价的。 Sigmoid Sigmoid函数的导数是其本身的函数,即f′(x)=f(x)(1−f(x)),计算非常方便,也非常节省计算时间。 具有这种性质的称
阅读全文
摘要:极大似然估计,通俗理解来说,就是利用已知的样本结果信息,反推最具有可能(最大概率)导致这些样本结果出现的模型参数值! 换句话说,极大似然估计提供了一种给定观察数据来评估模型参数的方法,即:“模型已定,参数未知”。 极大似然估计中采样需满足一个重要的假设,就是所有的采样都是独立同分布的。 首先看一下似
阅读全文
摘要:1、交叉熵的来源 一条信息的信息量大小和它反映的事件的不确定性有很大的关系,不确定性越大,则信息量越大。一句话如果需要很多外部信息才能确定,我们就称这句话的信息量比较大。比如你听到“云南西双版纳下雪了”,那你需要去看天气预报、问当地人等等查证(因为云南西双版纳从没下过雪)。相反,如果和你说“人一天要
阅读全文
摘要:Logistic 回归的本质是:假设数据服从Logistic分布,然后使用极大似然估计做参数的估计。 1、Logistic 分布 Logistic 分布是一种连续型的概率分布,其分布函数和密度函数分别为: 其中, 表示位置参数, 为形状参数。我们可以看下其图像特征: Logistic 分布的形状与正
阅读全文
摘要:在卷积神经网络中,感受野的定义是 卷积神经网络每一层输出的特征图(feature map)上的像素点在原始图像上映射的区域大小。 原始输入为5*5大小,使用一个5*5大小的核,处理它,得到的结果为1*1大小, 卷积核参数为25。 原始输入是5*5大小,使用两次3*3大小的核,处理它,得到的结果为1*
阅读全文
摘要:背景:深度神经网络涉及到很多层的叠加,而每一层的参数更新会导致上层的输入数据分布发生变化,通过层层叠加,高层的输入分布变化会非常剧烈,这就使得高层需要不断去重新适应底层的参数更新。Google 将这一现象总结为 Internal Covariate Shift,简称 ICS. 所以ICS是什么呢?将
阅读全文
摘要:分类模型评估: 指标 描述 Scikit-learn函数 Precision AUC from sklearn.metrics import precision_score Recall 召回率 from sklearn.metrics import recall_score F1 F1值 from
阅读全文