随笔分类 -  machine learning

摘要:import numpy as np def softmax(x): """ 对输入x的每一行计算softmax。 该函数对于输入是向量(将向量视为单独的行)或者矩阵(M x N)均适用。 代码利用softmax函数的性质: softmax(x) = softmax(x + c) 参数: x -- 一个N维向量,或者M x N维nu... 阅读全文
posted @ 2019-05-29 16:09 合唱团abc 阅读(1130) 评论(0) 推荐(0) 编辑
摘要:deep&wide为啥work,如何优化特征;详述attention,attention在ctr预估中如何使用,din为啥work?详述transformer,如何应用于ctr预估;item2vec为啥work,如何优化?dssm的原理,如何应用推荐系统中?推荐系统的流量分层如何优化?强化学习如何用 阅读全文
posted @ 2019-05-06 14:54 合唱团abc 阅读(154) 评论(0) 推荐(0) 编辑
摘要:机器学习面试100题: https://blog.csdn.net/T7SFOKzorD1JAYMSFk4/article/details/78960039 阅读全文
posted @ 2019-01-15 16:03 合唱团abc 阅读(467) 评论(0) 推荐(0) 编辑
摘要:https://www.nowcoder.com/discuss/102895?type=0&order=0&pos=6&page=1 https://www.cnblogs.com/huanyi0723/p/8470866.html https://www.jianshu.com/p/99e8f2 阅读全文
posted @ 2018-09-04 09:57 合唱团abc 阅读(176) 评论(0) 推荐(0) 编辑
摘要:共轭复数: 一个复数 的复共轭为: 矩阵 A 的共轭转置 A(又称埃尔米特共轭、埃尔米特转置)定义为: 其中 ()i,j表示矩阵i行j列上的元素, ()¯ 表示标量的复共轭。 这一定义也可以写作: 其中 AT 是矩阵A的转置, $ 阅读全文
posted @ 2017-09-03 14:24 合唱团abc 阅读(751) 评论(0) 推荐(0) 编辑
摘要:当前子树的损失函数: Ca(T)=C(T)+a|T|, 其中C(T)为对训练数据的预测误差,|T|为树的叶子结点数目,反映模型的复杂度。对固定的a,一定存在使损失函数Ca(T)最小的子树,将其表示为Ta, 极端情况,当 a=0时,整体树是最优的,当$a 阅读全文
posted @ 2017-09-01 19:50 合唱团abc 阅读(823) 评论(1) 推荐(1) 编辑
摘要:Latent semantic analysis (LSA) is a technique in natural language processing, in particular distributional semantics, of analyzing relationships betwe 阅读全文
posted @ 2017-08-29 20:53 合唱团abc 阅读(423) 评论(0) 推荐(0) 编辑
摘要: 阅读全文
posted @ 2017-08-28 07:40 合唱团abc 阅读(114) 评论(0) 推荐(0) 编辑
摘要:http://www.win-vector.com/dfiles/LogisticRegressionMaxEnt.pdf https://www.zhihu.com/question/24094554 π(x(i))v 表示模型输出的样本xi属于类别v的概率 对于多类分类: 表 阅读全文
posted @ 2017-08-23 17:05 合唱团abc 阅读(742) 评论(0) 推荐(0) 编辑
摘要:优点: 1)能够处理很高维度(feature很多)的数据,并且不用做特征选择(特征列采样) 2)训练完后,能够返回特征的重要性 3 ) 训练时树与树之间是相互独立的,易于并行化 4)可以处理缺失特征(决策树的优点) 缺点: 分裂的时候,偏向于选择取值较多的特征 http://blog.csdn.ne 阅读全文
posted @ 2017-08-23 16:39 合唱团abc 阅读(2883) 评论(1) 推荐(0) 编辑
摘要:缺失值问题可以从三个方面来考虑 1. 在选择分裂属性的时候,训练样本存在缺失值,如何处理?(计算分裂损失减少值时,忽略特征缺失的样本,最终计算的值乘以比例(实际参与计算的样本数除以总的样本数)) 假如你使用ID3算法,那么选择分类属性时,就要计算所有属性的熵增(信息增益,Gain)。假设10个样本, 阅读全文
posted @ 2017-08-23 16:31 合唱团abc 阅读(6823) 评论(0) 推荐(0) 编辑
摘要:基于统计学的方法 一、基于正态分布的一元离群点检测方法 假设有 n 个点(x1,...,xn), 那么可以计算出这n个点的均值μ和方差σ.均值和方差分别被定义为: 在正态分布的假设下,区域μ+3σ包含了99.7% 的数据,如果某个值距离分布的 阅读全文
posted @ 2017-08-22 19:01 合唱团abc 阅读(1142) 评论(0) 推荐(0) 编辑
摘要:首先,考虑标准形式的凸最优化问题: 则其拉格朗日函数为: 其中λi被称为与fi(x)<=0相关的拉格朗日乘子,λi>=0vi被称为与hi(x)=0相关的拉格朗日乘子。 拉格朗日对偶函数: 下面介绍拉格朗日对偶函数的一个重要性质: 拉 阅读全文
posted @ 2017-08-14 18:52 合唱团abc 阅读(485) 评论(0) 推荐(0) 编辑
摘要:凸集的定义为: 其几何意义表示为:如果集合C中任意2个元素连线上的点也在集合C中,则C为凸集。其示意图如下所示: 常见的凸集有: n维实数空间;一些范数约束形式的集合;仿射子空间;凸集的交集;n维半正定矩阵集;这些都可以通过凸集的定义去证明。 凸函数的定义为: 其几何意义表示为函数任意两点连线上的值 阅读全文
posted @ 2017-08-13 11:13 合唱团abc 阅读(680) 评论(0) 推荐(0) 编辑
摘要:SGD: 此处的SGD指mini-batch gradient descent,关于batch gradient descent, stochastic gradient descent, 以及 mini-batch gradient descent的具体区别就不细说了。现在的SGD一般都指mini 阅读全文
posted @ 2017-08-06 14:26 合唱团abc 阅读(11763) 评论(0) 推荐(0) 编辑
摘要:相同点:都是线性分类算法 不同点: 1、损失函数不同 LR:基于“给定x和参数,y服从二项分布”的假设,由极大似然估计推导 SVM: hinge loss + L2 regularization的标准表示,基于几何间隔最大化原理推导 $\sum^N_{i=1}[1 - y_i(w*x_i + b)] 阅读全文
posted @ 2017-08-03 15:00 合唱团abc 阅读(886) 评论(0) 推荐(0) 编辑
摘要:I. 牛顿迭代法给定一个复杂的非线性函数f(x),希望求它的最小值,我们一般可以这样做,假定它足够光滑,那么它的最小值也就是它的极小值点,满足f′(x0)=0,然后可以转化为求方程f′(x)=0的根了。非线性方程的根我们有个牛顿法,所以 然而,这种做法脱离了几何意义,不能让我们窥探到更多的秘密。我们 阅读全文
posted @ 2017-08-02 17:08 合唱团abc 阅读(3262) 评论(1) 推荐(0) 编辑
摘要:牛顿法、拟牛顿法相关资料: http://www.cnblogs.com/richqian/p/4535550.html https://www.codelast.com/%E5%8E%9F%E5%88%9B%E6%8B%9F%E7%89%9B%E9%A1%BF%E6%B3%95quasi-newt 阅读全文
posted @ 2017-08-02 11:30 合唱团abc 阅读(957) 评论(0) 推荐(0) 编辑
摘要:模型的优化目标如下: 其中,<xn,yn>是一条训练样本,yn是训练目标,xn是normalized bag of features。矩阵参数A是基于word的look-up table,也就是A是词的embedding向量。Axn矩阵运算的数学意义是将word的embed 阅读全文
posted @ 2017-07-22 10:06 合唱团abc 阅读(1883) 评论(0) 推荐(0) 编辑
摘要:词向量: 用一个向量的形式表示一个词 词向量的一种表示方式是one-hot的表示形式:首先,统计出语料中的所有词汇,然后对每个词汇编号,针对每个词建立V维的向量,向量的每个维度表示一个词,所以,对应编号位置上的维度数值为1,其他维度全为0。这种方式存在问题并且引发新的质疑:1)无法衡量相关词之间的距 阅读全文
posted @ 2017-07-19 20:48 合唱团abc 阅读(2974) 评论(1) 推荐(0) 编辑

点击右上角即可分享
微信分享提示