11 2013 档案

摘要:一切规律都存储在关系中,就看你能不能找得到他了,这也是数据挖掘的魅力。错综复杂的数据之中,能不能找到一个稳定存在的缝隙,让你切入,找到那个隐藏在背后的规律,这个规律在应用中能展示自己的价值与威力。如果有两类对象A和B,关系是$R\subset A \times B$。如果A和B都是数量,且关系比较接近线性,可以考虑相关系数。如果A和B都是数量,但关系非线性很强,甚至不单调,可以考虑离散相关系数。如果A和B其中一个是数量,一个是离散量,那么可以考虑条件分布/统计值。如果A和B都是离散量,可以考虑A和B构成一个二部图,在图上找规律。还可以将A看作节点,B看作超图的边。超图:http://en.wi 阅读全文
posted @ 2013-11-20 20:31 潘多拉盒子 阅读(167) 评论(0) 推荐(0) 编辑
摘要:如果有两类随机变量X和Y,由某个联合分布中可以采样(X,Y)。根据采样可以估算互信息H(Y|X),相信很多人都会。但是,这样的户信息是否有意义呢?现在来看,至少存在两个问题:1. 计算户信息需要得到联合分布或条件分布,而用样本来估计分布会有天然的误差;2. X或Y可能不是合适的状态的定义。第1条比较简单,已经有若干方法可以解决,如加入先验Beta分布。第2条是什么意思呢?比如某个用户u访问了一个页面p,我们可以用这个页面的ID来代表这个页面,用用户的cookie来代表用户,进而计算互信息(不限于互信息,还可以是其它反映u和p之间的correlation的量)。在这种情况下,我们可以通过U和P的 阅读全文
posted @ 2013-11-12 13:18 潘多拉盒子 阅读(309) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示