07 2019 档案
摘要:一.简单总结 其实相似度计算方法也是老生常谈,比如常用的有: 1.常规方法 a.编辑距离 b.Jaccard c.余弦距离 d.曼哈顿距离 e.欧氏距离 f.皮尔逊相关系数 2.语义方法 a.LSA b.Doc2Vec c.DSSM ...... 二.利用熵计算相似度 关于什么是熵、相对熵、交叉熵的
阅读全文
摘要:1.阶跃函数 ,值域{0,1} 2.sigmoid函数 ,值域(0,1) 3.relu函数 ,值域[0,+∞) 4.leaky relu函数 ,值域R 5.tanh函数 ,值域(-1,1) 6.softmax函数 ,值域[0,1] 7.画图程序
阅读全文
摘要:一.smote相关理论 (1). SMOTE是一种对普通过采样(oversampling)的一个改良。普通的过采样会使得训练集中有很多重复的样本。 SMOTE的全称是Synthetic Minority Over-Sampling Technique,译为“人工少数类过采样法”。 SMOTE没有直接
阅读全文
摘要:一般来説,wide&deep在ltr中作为点击预估模型,是一种pointwise方式,但是我们可以将其改为pairwise方式进行实验。待续...
阅读全文
摘要:deepfm可作为点击预估模型,最后一层一般为一个sigmoid函数,在ltr中称为pointwise,我们可以对其进行改造,与wide&deep一样,可将其改为pairwise方式,或者可以像lambdamart一样融入ndcg这种评估指标。待续...
阅读全文
摘要:一. LTR(learning to rank)经常用于搜索排序中,开源工具中比较有名的是微软的ranklib,但是这个好像是单机版的,也有好长时间没有更新了。所以打算想利用lightgbm进行排序,但网上关于lightgbm用于排序的代码很少,关于回归和分类的倒是一堆。这里我将贴上python版的
阅读全文
摘要:一.论文《QuickScorer:a Fast Algorithm to Rank Documents with Additive Ensembles of Regression Trees》是为了解决LTR模型的预测问题,如果LTR中的LambdaMart在生成模型时产生的树数和叶结点过多,在对样
阅读全文