随笔分类 - machine learning
摘要:import numpy as np def softmax(x): """ 对输入x的每一行计算softmax。 该函数对于输入是向量(将向量视为单独的行)或者矩阵(M x N)均适用。 代码利用softmax函数的性质: softmax(x) = softmax(x + c) 参数: x -- 一个N维向量,或者M x N维nu...
阅读全文
摘要:deep&wide为啥work,如何优化特征;详述attention,attention在ctr预估中如何使用,din为啥work?详述transformer,如何应用于ctr预估;item2vec为啥work,如何优化?dssm的原理,如何应用推荐系统中?推荐系统的流量分层如何优化?强化学习如何用
阅读全文
摘要:机器学习面试100题: https://blog.csdn.net/T7SFOKzorD1JAYMSFk4/article/details/78960039
阅读全文
摘要:https://www.nowcoder.com/discuss/102895?type=0&order=0&pos=6&page=1 https://www.cnblogs.com/huanyi0723/p/8470866.html https://www.jianshu.com/p/99e8f2
阅读全文
摘要:共轭复数: 一个复数 的复共轭为: 矩阵 的共轭转置 (又称埃尔米特共轭、埃尔米特转置)定义为: 其中 表示矩阵i行j列上的元素, 表示标量的复共轭。 这一定义也可以写作: 其中 是矩阵A的转置, $
阅读全文
摘要:当前子树的损失函数: , 其中为对训练数据的预测误差,为树的叶子结点数目,反映模型的复杂度。对固定的,一定存在使损失函数最小的子树,将其表示为, 极端情况,当 时,整体树是最优的,当$a
阅读全文
摘要:Latent semantic analysis (LSA) is a technique in natural language processing, in particular distributional semantics, of analyzing relationships betwe
阅读全文
摘要:http://www.win-vector.com/dfiles/LogisticRegressionMaxEnt.pdf https://www.zhihu.com/question/24094554 表示模型输出的样本属于类别的概率 对于多类分类: 表
阅读全文
摘要:优点: 1)能够处理很高维度(feature很多)的数据,并且不用做特征选择(特征列采样) 2)训练完后,能够返回特征的重要性 3 ) 训练时树与树之间是相互独立的,易于并行化 4)可以处理缺失特征(决策树的优点) 缺点: 分裂的时候,偏向于选择取值较多的特征 http://blog.csdn.ne
阅读全文
摘要:缺失值问题可以从三个方面来考虑 1. 在选择分裂属性的时候,训练样本存在缺失值,如何处理?(计算分裂损失减少值时,忽略特征缺失的样本,最终计算的值乘以比例(实际参与计算的样本数除以总的样本数)) 假如你使用ID3算法,那么选择分类属性时,就要计算所有属性的熵增(信息增益,Gain)。假设10个样本,
阅读全文
摘要:基于统计学的方法 一、基于正态分布的一元离群点检测方法 假设有 n 个点, 那么可以计算出这n个点的均值和方差.均值和方差分别被定义为: 在正态分布的假设下,区域包含了99.7% 的数据,如果某个值距离分布的
阅读全文
摘要:首先,考虑标准形式的凸最优化问题: 则其拉格朗日函数为: 其中被称为与相关的拉格朗日乘子,,被称为与相关的拉格朗日乘子。 拉格朗日对偶函数: 下面介绍拉格朗日对偶函数的一个重要性质: 拉
阅读全文
摘要:凸集的定义为: 其几何意义表示为:如果集合C中任意2个元素连线上的点也在集合C中,则C为凸集。其示意图如下所示: 常见的凸集有: n维实数空间;一些范数约束形式的集合;仿射子空间;凸集的交集;n维半正定矩阵集;这些都可以通过凸集的定义去证明。 凸函数的定义为: 其几何意义表示为函数任意两点连线上的值
阅读全文
摘要:SGD: 此处的SGD指mini-batch gradient descent,关于batch gradient descent, stochastic gradient descent, 以及 mini-batch gradient descent的具体区别就不细说了。现在的SGD一般都指mini
阅读全文
摘要:相同点:都是线性分类算法 不同点: 1、损失函数不同 LR:基于“给定x和参数,y服从二项分布”的假设,由极大似然估计推导 SVM: hinge loss + L2 regularization的标准表示,基于几何间隔最大化原理推导 $\sum^N_{i=1}[1 - y_i(w*x_i + b)]
阅读全文
摘要:I. 牛顿迭代法给定一个复杂的非线性函数f(x),希望求它的最小值,我们一般可以这样做,假定它足够光滑,那么它的最小值也就是它的极小值点,满足f′(x0)=0,然后可以转化为求方程f′(x)=0的根了。非线性方程的根我们有个牛顿法,所以 然而,这种做法脱离了几何意义,不能让我们窥探到更多的秘密。我们
阅读全文
摘要:牛顿法、拟牛顿法相关资料: http://www.cnblogs.com/richqian/p/4535550.html https://www.codelast.com/%E5%8E%9F%E5%88%9B%E6%8B%9F%E7%89%9B%E9%A1%BF%E6%B3%95quasi-newt
阅读全文
摘要:模型的优化目标如下: 其中,是一条训练样本,是训练目标,是normalized bag of features。矩阵参数A是基于word的look-up table,也就是A是词的embedding向量。矩阵运算的数学意义是将word的embed
阅读全文
摘要:词向量: 用一个向量的形式表示一个词 词向量的一种表示方式是one-hot的表示形式:首先,统计出语料中的所有词汇,然后对每个词汇编号,针对每个词建立V维的向量,向量的每个维度表示一个词,所以,对应编号位置上的维度数值为1,其他维度全为0。这种方式存在问题并且引发新的质疑:1)无法衡量相关词之间的距
阅读全文