影响和相关的区别
相关性
很多研究人员已经注意到:用户的属性和行为倾向于与他们的社会网络相关( Sin-gla and Richardson ,2008)。
可以进行一个简单的测试来分析这种与社会网络有关的相关性(Easley and Kleinberg , 2010):
假设给网络中的每个结点赋予一个二值属性(比如,是否是吸烟者)。
如果结点的属性与其社会关系相关,那么期望看到属性相同的结点将在社会网络上体现正相关。也就是说,吸烟者更喜欢跟吸烟者相联系,不吸烟者更倾向于与不吸烟者相联系。
因此,拥有不同属性的结点(比如吸烟者和非吸烟者)之间产生联系的概率会相对较低。
给定一个网络,可以统计具有不同属性的结点间存在有联系的比例,然后将它与期望的概率相比较。
这个期望的概率是在假定结点属性与社会关系独立的情形下得到的。
如果这两个量显著不同,便可以认为结点的属性与其所在的社会网络相关。
具有不同属性的结点之间存在联系的概率可以按照如下方式进行计算:
在一个给定的社会网络中,
假设其中有 p % 的结点是吸烟者,(1 - p %)的结点是不吸烟者。
若结点间联系的产生独立于用户的吸烟行为,
那么两个吸烟者之间产生联系的概率为 p×p ,
两个不吸烟者之间产生联系的概率为(1-p)×(1 -p),
一个吸烟者与一个不吸烟者之间产生联系的概率为1 -p^2- (1-p)^3=2p(1-p)。
因此,可以执行以下相关性测试(test for correlation)。
相关性测试( test for correlation)如果网络中连接具有不同属性的结点的边的比例明显地小于期望概率,那么结点的属性与结点间的联系的确存在相关性。
对于下图所示的网络,有4/9的结点是吸烟者,有5/9的结点是不吸烟者。
因此,吸烟者和不吸烟者之间存在联系的期望概率为2x4/9×5/9 =49%。
换句话说,如果结点之间的联系独立于结点具有的属性,那么将观察到该网络中有一半的联系将存在于吸烟者和不吸烟者间。但是,从网络中观察到的却是,吸烟者和非吸烟者之间联系的数量只有2/14=14% < 49%。
于是,可以得到结论:
该网络一定程度地体现了结点之间的联系与结点吸烟行为的相关性。
现在,大家都非常清楚了这样的一个结论:
网络中的邻接结点的行为之间或属性之间都存在相关性。
有三种主要的社会过程可以解释这种相关性:同质( ho-mophily)、环境( confounding〉和影响( influence) ( Anagnostopoulos et al. , 2008)。
三种主要的社会过程
同质( ho-mophily)
同质(homophily)( McPherson et al. , 2001)是社会学家生造的一个词,用于解释现实社会中具有某种相似性的人之间更容易建立联系。
这些相似性体现在:年龄、教育程度、种族、兴趣等。用一句话来总结就是:“人以群分,物以类聚”。
同质假定了结点间属性的相似性导致了结点之间联系的产生,这样的社会过程也叫做选择( selection) ( Crandall et al. , 2008),也就是说人们倾向于选择在某些方面与自己相似的人做朋友。
环境(confounding)
环境(environment或confounding)用于分析环境对结点间产生联系的影响*。由于结点间相关性可以由于外部环境的影响而产生。
这样的环境在统计学中称为混淆因子( confounding factor)( Pearl,2000)。
从本质上说,很多隐含变量能够像结点的相似行为一样导致社会联系的产生。
例如,同住一个城市的两个人比随机选择的两个人更可能成为朋友,他们更可能在同一景点拍照,而且很可能都将照片发布到同一个社交网站,并且还可能在Flickr 上选择同样的标签( Anagnostopoulos et al. , 2008)。
影响( influence)
影响(influence)是大家所熟知的导致邻接结点间产生相关行为的社会过程
例如,如果某个人的大多数朋友都转到汽车公司去了,那么他也可能因为朋友的影响而转到汽车公司。在这样的社会过程中,一个人的社会联系和他的朋友的行为会影响他的决策。
参考:
[1] (美)唐磊( Lei Tang)等著;文益民,闭应洲译.社会计算:社区发现和社会媒体挖掘[M].机械工业出版社:北京,2012