基于数据驱动的归因建模方法--

        很久没有写博客了,今天总算可以静下心来写点东西。前段时间一直在处理用户经过许多广告渠道进入公司站点玩游戏并充值,充值的效益该算在哪个渠道的问题。在这个过程中也看了目前一些主流网络分析公司如谷歌、3C Metrics等在这方面的基本模型。

        这些方法最终没有被上级认可,因为咱们的问题可能更为复杂。那就是咱们不但涉及到广告渠道众多,而且游戏数量也众多,存在一个渠道推多个游戏,一个游戏在多个渠道推的问题。并且,引入这些新的方法,可能需要将目前的平台上很多东西彻底修改,代价太大。所以以后一定要记住,一定要具备全局的眼光,综合考虑算法、效率、经济效益的影响,否则提出来的都是一些看上去很美但又不被接受的方法

        但是,作为数据挖掘或分析这个行业的从业者,对于目前一些流行的技术,还是需要保持热情。下面是我看一篇国外的文献《Data-driven Multi-touch Attribution Models》(下载路径http://users.cis.fiu.edu/~lzhen001/activities/KDD2011Program/docs/p258.pdf),觉得文章中的思路也还是不错的,至少比谷歌(见上一篇博客中的几种方法更有说服力吧)。但是,文中作者提出的两个方法中,第一种似乎语焉不详,我没弄明白,因此这里只说第二种思路。

        先来一段背景。

  1. 背景

  2.         随着数字广告的发展(主要还是因为google,facebook,Twiter的出现,使得网络广告大有取代传统广告之势),人们每天都在网络广告的狂轰滥炸中生活。现在的商家为了能够吸引顾客,会在各种网络媒体上做广告,比如搜索引擎,邮件广告,社交平台,站点联盟等等。所以一个人从一个跟商家无关的人转化成某个商家的过程中,可能看到过商家在各种媒体上发布的多种广告,那么,我们该把用户转变后产生的收益归功于哪个或者哪几个渠道呢?目前,比较典型的模型是最后接触模型,就是将收益归功于用户转化前最后接触的广告渠道。但是这种方式有很大的缺陷,因为它忽视了其它渠道的影响,导致互联网营销价值被低估(详情请见http://www.emarketer.com/Mobile/Article.aspx?R=1009004)。

image

文章中的一种基于概率的模型

        这是一种基于一阶和二阶条件概率的方法,其基本步骤如下:

        (1)对于给定的数据集,计算经验概率

        image

        image

        其中:

        image ,y是一个结果变量,取值为0或1。1表示用户转化(消费或者注册,具体情况由商家定义),0表示没有转化。image 表示p个不同的广告路径。image 表示经过渠道  image 且转化了的用户的个数,image 表示的是既经过渠道image又经过渠道image 且转化的用户的个数。反之亦然。

         (2)计算渠道i的贡献

        image

        当然,实际上还可以延伸到三阶甚至更高阶,但在实际应用中有两阶也就够了,但是如果不放心,也可以考虑尝试用三阶看看。

        上面的思路其实挺简单,就是先计算一个渠道为转化做贡献的概率,然后在此基础上计算一个渠道的总贡献。

        当然,归因分析是一个比较新兴的东西,也有很多预测模型,对此感兴趣的可以看文章中的参考文献。

posted @ 2012-10-11 12:27  Core Hua  阅读(1317)  评论(0编辑  收藏  举报