08 2013 档案

摘要:现实中常常需要挖掘两种因素之间的关联,Welch's t检验很适合其中的nomial-numerical的关系挖掘。比如天气状况对销量的影响,或者天气情况对交通流量的影响等等。我们可以按照下雨/不下雨将样本总体划分为两个样本,然后对比这两个样本的情况下numerical型变量的均值差异的显著性。下面以天气情况对销量的影响为例,使用Welch's t检验来分析。假定样本$S_i=\{X_t|W_t=w_i\}; i=1,2; w_1=下雨, w_2=不下雨$,计算这两个样本的统计$t$变量和自由度变量$\nu$如下:$t=\frac{\bar{X_1}-\bar{X_2}}{\s 阅读全文
posted @ 2013-08-28 14:06 潘多拉盒子 阅读(1126) 评论(0) 推荐(0) 编辑
摘要:(转载请注明原创于潘多拉盒子)如果我们获得了一组变量的顺序,如何估计这组变量的值呢?本文提供了一种简单的方法。假定$n$个随机变量$\{X_k \sim U(0, 1)\}_{k=1}^{n}$是$(0,1)$上的均匀分布,且两两独立。对这$n$个随机变量从小到大排列,得到$\{X_{\pi(k)}\}_{k=1}^{n}$且$X_{\pi(1)}<X_{\pi(2)}<\cdots<X_{\pi(n)}$,这里忽略了任意两项相等时0测度的情形。容易看出,$X_{\pi(k)}$服从Beta分布:$X_{\pi(k)}\sim Beta(k, n-k+1)$。我们有理由相信, 阅读全文
posted @ 2013-08-20 15:37 潘多拉盒子 阅读(581) 评论(0) 推荐(0) 编辑
摘要:(转载请注明原创于潘多拉盒子)算法效果的AB测试,是指在相同的应用场景下,对比不同算法的效果。通常的做法是,按照PV或UV随机分配流量到算法上,计算算法的CTR或转化率进行对比。为了表述简单,我们假设参与对比的算法有两个,比较的指标是CTR。这里面的关键细节有两个:1. 如何划分浏览?2. 如何计算CTR。下面从这两个角度讨论可能出现的问题。定义1:按PV划分流量,是指对任意一个访问,按照预先设定的比例,随机分配到一个算法中。需要注意的是,在这种情况下,每个用户会被随机分配到一个算法中。定义2:按UV划分流量,是指对任意一个访问,按照预先设定的比例,对用户ID进行哈希和取模等操作,将流量划分到 阅读全文
posted @ 2013-08-15 12:02 潘多拉盒子 阅读(3857) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示