摘要:
背景 经典MLP不能充分利用结构化数据,本文提出的DIN可以(1)使用兴趣分布代表用户多样化的兴趣(不同用户对不同商品有兴趣)(2)与attention机制一样,根据ad局部激活用户兴趣相关的兴趣(用户有很多兴趣,最后导致购买的是小部分兴趣,attention机制就是保留并激活这部分兴趣)。 评价指 阅读全文
摘要:
介绍 MLR算法是alibaba在2012年提出并使用的广告点击率预估模型,2017年发表出来。 如下图,LR不能拟合非线性数据,MLR可以拟合非线性数据,因为划分-训练模式。 讨论,非线性拟合能力: 数据划分规则如下公式,特征分片数m=1时,退化为LR;上图MLR中m=4。m越大,模型的拟合能力越 阅读全文
摘要:
背景 在线广告中,广告按照CPM排序,排在前面的广告竞争有限广告位(截断)。其中,CPM=bid*pctr。注GSP二价计费的,按照下一位bid计费。适当调整bid,可以提高竞价的排名,从而获得展现的机会。OCPC就是调整广告的出价,对优质流量出高价,劣质流量出低价,提高广告主的ROI。其中,ROI 阅读全文
摘要:
仅仅记录神经网络编程主线。 一 引用工具包 二 读入数据集 输入函数实现在最下面附录 lanar是二分类数据集,可视化如下图,外形像花的一样的非线性数据集。 三 神经网络结构 对于输入样本x,前向传播计算如下公式: 损失函数J: 输入样本X:[n_x,m]; 假设输入m个样本,每个样本k维,输入神经 阅读全文
摘要:
简介 文本分类任务根据给定一条文本的内容,判断该文本所属的类别,是自然语言处理领域的一项重要的基础任务。具体的,本任务是对文本quey进行分类,任务流程如下: 运行 训练: sh +x train.sh 预测: python infer.py 输入/输出 输入样本: label text(分词后) 阅读全文
摘要:
一 word2vec现有三种模型框架: 1 N-gram模型(http://blog.csdn.net/mytestmy/article/details/26961315) eg求大家 喜欢 吃 (苹果)的概率 (1)计算后验概率: p(大家)表示“大家”这个词在语料库里面出现的概率; p(喜欢|大 阅读全文
摘要:
一 背景 首先举个例子: 正样本(90) 负样本(10) 模型1预测 正(90) 正(10) 模型2预测 正(70)负(20) 正(5)负(5) 结论: 模型1准确率90%; 模型2 准确率75% 考虑对正负样本对预测能力,显然模型2要比模型1好,但对于这种正负样本分布不平衡对数据,准确率不能衡量分 阅读全文
摘要:
1 推荐技术 1)协同过滤: (1)基于user的协同过滤:根据历史日志中用户年龄,性别,行为,偏好等特征计算user之间的相似度,根据相似user对item的评分推荐item。缺点:新用户冷启动问题和数据稀疏不能找到置信的相似用户进行推荐。 (2)基于item的协同过滤:根据item维度的特征计算 阅读全文
摘要:
1GBDT和LR融合 LR模型是线性的,处理能力有限,所以要想处理大规模问题,需要大量人力进行特征工程,组合相似的特征,例如user和Ad维度的特征进行组合。 GDBT天然适合做特征提取,因为GBDT由回归树组成所以, 每棵回归树就是天然的有区分性的特征及组合特征,然后给LR模型训练,提高点击率预估 阅读全文
摘要:
1RNN为什么会有梯度消失问题 (1)沿时间反向方向:t-n时刻梯度=t时刻梯度* π(W*激活函数的导数) (2)沿隐层方向方向:l-n层的梯度=l层的梯度*π(U*激活函数的导数) 所以激活函数的导数和W连乘可以造成梯度消失和爆炸;由函数曲线看sigmoid的导数最大是1/4; 2LSTM可以避 阅读全文