摘要:
最近工作不顺,有一点思考,无处记录发到这里,多是胡言乱语,对其他人有一点作用就是超出预期了 工作至今6年多了,现在做推荐算法相关工作,我却一直认为自己不擅长提升业务指标,之前简单地以为是口味不同,最近思索之后发现是能力不足,例如 面对开放问题,不懂得如何做取舍,做出当下正确的判断 面对现有的系统,不 阅读全文
摘要:
Notification Volume Control and Optimization System at Pinterest 讲怎么用模型分配发送次数,怎么收集无偏数据,定义样本,目标是活跃和不订阅,然后求解有约束最优化问题。 非常超前 prinist做法,按周做规划,发送量相当于有一个整体的预 阅读全文
摘要:
最近看了一些资料,随手记下 ## 什么是冷启动 搜索、广告和推荐场景都会遇到的问题,机器学习模型利用已有的用户和item的点击等数据训练,有数据循环的现象(feedback loop),但新创建的item或者新注册的用户如何分发? 用户的冷启动,可以看做是用户兴趣探索的特例,在没有用户历史数据的情况 阅读全文
摘要:
# 引言 搜广推类似场景都是retrieval + ranking两阶段方式,前者用从海量候选粗选一轮,后者再用负载模型,是效果、延迟和机器资源的trade-off的产物。 retrieval广泛使用embedding + ANN方案,比起invert index 个性化更强。 # embeddin 阅读全文
摘要:
几年前刚进入行业时,就简单认为不过是wide&deep做精排,双塔FM做召回做粗排,再加上一些周边项目,比如冷启动和多模型融合调参,就组成了一个完整的推荐系统算法部分。再回头思考这一切,不再迷失在各式各样的实现细节中,关注本质,有了更广泛的认识,分为一下几个部分。 1. 建模方法 多阶段的推荐系统如 阅读全文
摘要:
再次回到推荐系统方向的工作, 相比几年前 2018/19 很多认知出现了变化,对我来说很有意义,写出来作为记录也分享给大家。 曾经的主流ctr模型是 deep+wide model,出自google的经典论文。 从业界的演进路线来说, 最开始是大规模LR,模型很简单,f(x) = sigmoid(w 阅读全文
摘要:
时隔几年,再次阅读此书学习统计学习,仍然很有收获,这里列出来阅读过程中的一些问题,之后有答案了再另写一篇文章。 感知机如何判断线性可分?学习(优化)过程中根据迭代次数判断过于低效? Naive Bayes 的贝叶斯估计的先验分布是什么?怎么理解?从结论看很合理,推理的过程是从结论推导先验分布? 决策 阅读全文
摘要:
这里记录每次新机器如何配置工作环境。 oh-my-zsh 首先是配置oh-my-zsh, https://ohmyz.sh,相较于默认的bash,它提供了更炫酷的外观和一系列很好用的插件,比如autojump,安装也极其简单,十分推荐。 tmux tmux 是管理多个会话的系统,最初使用tmux的原 阅读全文
摘要:
ctr预估是工业界做推荐、广告等的基本问题,下面以熟悉的推荐场景为例,目标是提高abtest的线上指标,时长、互动和留存,反应到ctr模型的评估指标,可以是auc,logloss,ngcd等,auc反映了模型区分正负例的能力,auc提高不一定对应到线上指标提示,可能只是对item的预估分更准,对一个 阅读全文