09 2017 档案

摘要:点击率预估方法总结 前言: 最近一直在做帖子维度的CTR预估,尝试了好些方法,把一些经过和想法记录下来。 C 表示点击数,I 表示展示数,p 表示CTR 1. 普通方法 p = C / I 直接使用帖子的点击数除以曝光数,存在的问题很明显: 1. 可能有的帖子曝光数很少,甚至为 0,以至于得不到准确 阅读全文
posted @ 2017-09-24 20:01 longwind09 阅读(2876) 评论(0) 推荐(0) 编辑
摘要:这两天在用spark做点击率的贝叶斯平滑,参考雅虎的论文进行了一番尝试。 先上代码: 1 # click_count, show_count # this method takes time 2 def do_smooth(data_list): 3 import scipy.special as 阅读全文
posted @ 2017-09-24 20:01 longwind09 阅读(626) 评论(4) 推荐(0) 编辑
摘要:2017年的学习目标 方向:程序设计、数据挖掘、搜索排序、计算广告、用户画像、推荐、自然语言处理 语言:Shell、C++、Java、Python、Scala、Lisp、Ruby 读书:PRML、随机过程、蓝皮书、西瓜书、实战、计算广告、数学之美、浪潮之巅 大数据:Hadoop、Spark、Stor 阅读全文
posted @ 2017-09-24 20:01 longwind09 阅读(162) 评论(0) 推荐(0) 编辑
摘要:平时习惯用一些linux命令来完成工作,在Windows上有cygwin和gitbash两个选择。这两个我都装了。 相对来说cygwin支持的功能更多一些,但是它没有默认绑定到右键菜单。为此,我想到用万能的注册表解决这个事情。网上搜索了一下,把我眼中best answer贴出来供大家... 阅读全文
posted @ 2017-09-24 20:01 longwind09 阅读(349) 评论(0) 推荐(0) 编辑
摘要:图片太小,请参见数据类型操作在Spark上的应用案例Beta分布随机数Bayes平滑计算CTR先验Bayes平滑计算CTR先验class entity(traindata: RDD[Array[Double]], outputPath: String) extends serial... 阅读全文
posted @ 2017-09-24 20:01 longwind09 阅读(276) 评论(0) 推荐(0) 编辑
摘要:今天在翻刘鹏@北冥乘海生的《计算广告》时,看到“边际成本 ”一词,在知乎上看到@猴子同学的介绍,顿时心里澎湃不已,于是想写点什么。要了解“边际成本”,先了解一下“边际效应”,大概是这么一个意思: “大热天你口渴难耐时,喝一瓶北冰洋很爽,喝两瓶还是挺爽,第3瓶第4瓶就没那么爽”。说明边... 阅读全文
posted @ 2017-09-24 20:01 longwind09 阅读(552) 评论(0) 推荐(0) 编辑
摘要:今年注定是不寻常的一年,因为技术,接触了许多大牛。通过一篇篇博文,看到了大牛们勤奋好学、孜孜不倦的精神,于是决定也开个博客,向大牛学习。 博客开了,写点什么呢?奈何肚子里墨水不多,吐出来也多是白沫,不如写写自己的学习心得,一来可以鼓励自己,再者,也能给后来人提供些许思路。 第一篇博客,不谈实质,就谈 阅读全文
posted @ 2017-09-21 14:55 longwind09 阅读(346) 评论(0) 推荐(0) 编辑