随笔分类 -  机器学习与深度学习细节

摘要:在模型结构中,明确设计一些子网络或者子结构,对二阶特征组合、三阶特征组合,甚至更高阶的特征组合进行表征。比如说 DeepFM,Deep 部分就是个典型的 DNN 模型,这个大家基本都会用,而 FM 部分则是明确对特征二阶组合进行建模的子模型。这就是一个典型的显式二阶特征组合的模型。而如果进一步拓展的 阅读全文
posted @ 2020-06-06 16:25 耐烦不急 阅读(414) 评论(0) 推荐(0) 编辑
摘要:假设现在有一个二分类问题,先引入两个概念: 真正例率(TPR):正例中预测为正例的比例 假正例率(FPR):反例中预测为正例的比例 再假设样本数为6,现在有一个分类器1,它对样本的分类结果如下表(按预测值从大到小排序) ROC曲线的横轴为假正例率,纵轴为真正例率,范围都是[0,1],现在我们开始画图 阅读全文
posted @ 2020-03-27 12:45 耐烦不急 阅读(2587) 评论(0) 推荐(0) 编辑
摘要:样本不平衡往往会导致以下问题: 对比例小的样本造成过拟合,也就是说预测偏向样本数较多的分类。这样就会大大降低模型的范化能力。往往accuracy(准确率)很高,但auc很低。 针对样本的不平衡问题,有以下几种常见的解决思路: 搜集更多的数据 改变评判指标 对数据进行采样 合成样本 改变样本权重 搜集 阅读全文
posted @ 2020-01-06 14:37 耐烦不急 阅读(1050) 评论(0) 推荐(0) 编辑
摘要:ReLU激活功能并不完美。 它有一个被称为 “ReLU 死区” 的问题:在训练过程中,一些神经元会“死亡”,即它们停止输出 0 以外的任何东西。在某些情况下,你可能会发现你网络的一半神经元已经死亡,特别是使用大学习率时。 在训练期间,如果神经元的权重得到更新,使得神经元输入的加权和为负,则它将开始输 阅读全文
posted @ 2019-11-05 14:37 耐烦不急 阅读(4439) 评论(0) 推荐(0) 编辑
摘要:在传统的神经网络中,比如多层感知机(MLP),其输入通常是一个特征向量。需要人工设计特征,然后将用这些特征计算的值组成特征向量。在过去几十年的经验来看,人工找的特征并不总是好用。有时多了,有时少了,有时选的特征根本就不起作用(真正起作用的特征在浩瀚的未知里)。这就是为啥过去几十年神经网络一直被SVM 阅读全文
posted @ 2018-10-29 22:30 耐烦不急 阅读(632) 评论(4) 推荐(0) 编辑
摘要:一,伯努利分布(bernouli distribution) 又叫做0-1分布,指一次随机试验,结果只有两种。也就是一个随机变量的取值只有0和1。记为: 0-1分布 或B(1,p),其中 p 表示一次伯努利实验中结果为正或为1的概率。 概率计算: P(X=0)=p0P(X=1)=p1 期望计算: E 阅读全文
posted @ 2018-10-05 22:08 耐烦不急 阅读(27638) 评论(0) 推荐(0) 编辑
摘要:要知道,与机器学习模型不同,深度学习模型里面充满了各种超参数。而且,并非所有参数变量都能对模型的学习过程产生同样的贡献。 考虑到这种额外的复杂性,在一个多维空间中找到这些参数变量的最佳配置并不是件容易的事情。 每一位科学家和研究人员,都希望在现有的资源条件下(计算、金钱和时间),找到最佳的模型。 通 阅读全文
posted @ 2018-10-02 22:21 耐烦不急 阅读(3525) 评论(0) 推荐(0) 编辑
摘要:学习率的调整 从梯度下降算法的角度来说,通过选择合适的学习率,可以使梯度下降法得到更好的性能。学习率,即参数到达最优值过程的速度快慢,如Andrew Ng的Stanford公开课程所说,假如你从山峰的最高点根据梯度下降法寻找最优值,当你学习率过大,即下降的快,步子大,那么你很可能会在某一步跨过最优值 阅读全文
posted @ 2018-09-27 17:59 耐烦不急 阅读(8178) 评论(0) 推荐(0) 编辑
摘要:1.线性回归 线性回归是回归任务最常用的算法。它最简的形式,是用一个连续的超平面来拟合数据集(比如,当你仅有两个变量时就用一条直线)。如果数据集内的变量存在线性关系,拟合程度就相当高。 在实践中,简单线性回归通常会被其正则化形式(LASSO、Ridge 及弹性网络)所取代。正则化是对过多回归系数所采 阅读全文
posted @ 2018-09-27 17:56 耐烦不急 阅读(3424) 评论(0) 推荐(0) 编辑
摘要:在机器学习的优化问题中,梯度下降法和牛顿法是常用的两种凸函数求极值的方法,他们都是为了求得目标函数的近似解。在逻辑斯蒂回归模型的参数求解中,一般用改良的梯度下降法,也可以用牛顿法。由于两种方法有些相似,我特地拿来简单地对比一下。下面的内容需要读者之前熟悉两种算法。 梯度下降法 梯度下降法用来求解目标 阅读全文
posted @ 2018-09-27 16:40 耐烦不急 阅读(5280) 评论(0) 推荐(0) 编辑
摘要:卷积中的特征图大小计算方式有两种,分别是‘VALID’和‘SAME’,卷积和池化都适用,卷积除不尽的结果都向下取整,池化除不尽的结果都向上取整。 1.如果计算方式采用'VALID',则: 其中为输出特征图的大小,为输入特征图的大小,F为卷积核大小,stride为卷积步长。 2.如果计算方式采用'SA 阅读全文
posted @ 2018-09-26 13:21 耐烦不急 阅读(6957) 评论(1) 推荐(0) 编辑
摘要:使用机器学习方法解决实际问题时,我们通常要用L1或L2范数做正则化(regularization),从而限制权值大小,减少过拟合风险。特别是在使用梯度下降来做目标函数优化时,很常见的说法是, L1正则化产生稀疏的权值, L2正则化产生平滑的权值。为什么会这样?这里面的本质原因是什么呢?下面我们从两个 阅读全文
posted @ 2018-09-25 21:51 耐烦不急 阅读(3475) 评论(0) 推荐(0) 编辑
摘要:项目中出现了二分类数据不平横问题,研究总结下对于类别不平横问题的处理经验: 为什么类别不平横会影响模型的输出? 许多模型的输出类别是基于阈值的,例如逻辑回归中小于0.5的为反例,大于则为正例。在数据不平衡时,默认的阈值会导致模型输出倾向与类别数据多的类别。 因此可以在实际应用中,解决办法包括: 1) 阅读全文
posted @ 2018-09-24 20:10 耐烦不急 阅读(11910) 评论(0) 推荐(1) 编辑
摘要:1*1的卷积核在NIN、Googlenet中被广泛使用,但其到底有什么作用也是一直困扰的问题,这里总结和归纳下在网上查到的自认为很合理的一些答案,包括1)跨通道的特征整合2)特征通道的升维和降维 3)减少卷积核参数(简化模型) 1 - 引入 在我学习吴恩达老师Deeplearning.ai深度学习课 阅读全文
posted @ 2018-09-17 22:44 耐烦不急 阅读(11410) 评论(0) 推荐(2) 编辑
摘要:数学解释 偏差:描述的是预测值(估计值)的期望与真实值之间的差距。偏差越大,越偏离真实数据,如下图第二行所示。 方差:描述的是预测值的变化范围,离散程度,也就是离其期望值的距离。方差越大,数据的分布越分散,如下图右列所示。 机器学习中的偏差和方差 首先,假设你知道训练集和测试集的关系。简单来讲是我们 阅读全文
posted @ 2018-09-17 09:53 耐烦不急 阅读(1699) 评论(0) 推荐(0) 编辑
摘要:(1)tf.nn.max_pool()函数 解释: 示例: (2)tf.nn.dropout函数 解释: (3)tf.nn.local_response_normalization函数 公式说明 local response normalization最早是由Krizhevsky和Hinton在关于 阅读全文
posted @ 2018-09-16 15:31 耐烦不急 阅读(1375) 评论(0) 推荐(0) 编辑
摘要:数据稀疏问题严重制约着协同过满推荐系统的发展。对于大型商务网站来说,由于产品和用户数量都很庞大,用户评分产品一般不超过产品总数的1%,两个用户共同评分的产品更是少之又少,解决数据稀疏问题是提高推荐质量的关键。 为了提高推荐质量,许多研究人员都试图缓和数据稀疏问题。他们从不同的角度对用户和产品信息进行 阅读全文
posted @ 2018-09-11 11:37 耐烦不急 阅读(5290) 评论(0) 推荐(0) 编辑
摘要:一、针对二分类交叉熵损失函数 说起交叉熵损失函数「Cross Entropy Loss」,脑海中立马浮现出它的公式: 我们已经对这个交叉熵函数非常熟悉,大多数情况下都是直接拿来使用就好。但是它是怎么来的?为什么它能表征真实样本标签和预测概率之间的差值?上面的交叉熵函数是否有其它变种?也许很多朋友还不 阅读全文
posted @ 2018-09-11 09:49 耐烦不急 阅读(1428) 评论(0) 推荐(0) 编辑
摘要:1 抽象成数学问题 明确问题是进行机器学习的第一步。机器学习的训练过程通常都是一件非常耗时的事情,胡乱尝试时间成本是非常高的。这里的抽象成数学问题,指的我们明确我们可以获得什么样的数据,目标是一个分类还是回归或者是聚类的问题,如果都不是的话,如果划归为其中的某类问题。 2 获取数据 数据决定了机器学 阅读全文
posted @ 2018-09-04 15:06 耐烦不急 阅读(327) 评论(0) 推荐(0) 编辑
摘要:目录 为什么需要激活函数 激活函数 常见的激活函数 Sigmoid Tanh ReLU Leaky ReLU ELU Maxout Softmax 结论 如何选择合适的激活函数 为什么需要激活函数 神经网络单个神经元的基本结构由线性输出 Z 和非线性输出 A 两部分组成。如下图所示: 其中,f(x) 阅读全文
posted @ 2018-09-01 17:25 耐烦不急 阅读(2887) 评论(0) 推荐(1) 编辑

点击右上角即可分享
微信分享提示