美国大选数据挖掘相关论文笔记(A 61-million-person experiment in social influence and political mobilization)
简介:
最近大家十分关注美国大选,其中说的很火热的一点便是利用数据挖掘对于大选进行政治动员。刚好最近nature上有一篇名为A 61-million-person experiment in social influence and political mobilization文章就是讲的一个在上届美国大选时利用facebook上的实验数据对于政治动员和社交影响的分析。于是也学习了下。
本文主要分为两个部分,第一部分为对于这篇paper的在学习中的简要翻译和记录。第二部分为自己的一点简要心得。
翻译和记录:
A 61-million-person experiment in social influence and political mobilization
http://www.nature.com/nature/journal/v489/n7415/full/nature11421.html#auth-2
人类的行为被认为在face to face的社交网络中传播,但是在观测的研究中很难去确认社会影响效应,并且我们并不知道是否在线的社交网络是否以相同的方式运转。作者使用了一个关于2010年美国国会选举的政治动员的消息在61000000的facebook用户之间传播的随机控制实验的结果来尝试说明这个问题。结果表明这些消息直接影响了数百万人的政治的自我表达,信息寻找和现实生活中的投票行为。此外,这些信息并单单影响接受到信息的用户,并且影响到这些用户的朋友以及朋友的朋友。社交传播对于现实生活中投票的影响要比这些消息的直接影响要大得多,并且这些传播更容易发生在具有见面关系的关系密切的朋友中。这些结果表明强关系有助于社交网络中对于在线和现实生活中的传播。
在观测的研究中,投票者的出席和朋友,家人和合作者之间是显著相关的。有关于email的元分析表明在线的投票呼吁是无效的。然而接触巨大的网上人员表示甚至很小的影响也很产出成千上万的人员的行为改变。而且,那些改变也能影响选举(less than 0.01% of votes cast in Florida)
作者检验自己假说的方法:建立了一个随机控制实验
选取的样本:>= 18 US 在2012.11.01(美国国会选举)访问了facebook的用户。
分组方式:分为三组1.social message group 2.information message group 3.control group
- (n=60,055,176)在动态消息的顶端显示一个状态,这条消息鼓励用户区投票,提供一个区原po的链接提供一个显示'I Voted'的按钮,显示关于其他用户报告投票的统计,最重要的是随机的显示6个已经点击过按钮的用户的朋友的头像。
- (n=611,044)显示相同的信息,不过没有头像。
- (n=613,096)没有收到任何信息。
用户动作:1.按按钮 2.点击原po的链接 3.在选举中投票
动作代表:按按钮表示了一种政治的自我表达,会显示到自己的页面上展示给其他人看。点击原po的链接使得其转到原po主的地方,并且这个行为不会展示,这个行为代表了用户的对于选举信息的寻求。用以组为级别的方式去探寻6百30万用户的经确认的投票行为。
对于直接影响的分析:
先比较了1和2组的行为差异,如上图。
差异明显,具体的差异值就不写了
可以明显看出,看到朋友的脸对于现实生活中的投票确实影响很大。
对于非直接影响的分析:
投票者动员的实验表明大多数接触潜在的投票者的方法对于出席率只有很小的影响。
如何区别哪些是关系比较好的用户呢?作者是用facebook里的朋友之间互相访问来作为度量。比较高的交互行为说明用户更可能是现实生活中的朋友并且更深的友谊。
具体的做法是数出朋友之间交互的次数并且用十分位数分类,将他们从低到高排序。研究表明最高的十分位里的朋友更可能是现实生活中的好朋友。(对于数据的处理可以用十分位分段处理)
用上面的分类来估计流动信息对于用户的朋友的影响。用随机分配的方式来确保用户接受到这个信息和朋友的行为之间并不受分享信息的属性的影响。
去分析一个朋友的处理的影响,作者把接受到这个用户的social message的的朋友的行为和其在控制组的用户的行为做了对比。
未来解释这个网络的相关性,作者用网络排列的方法来估计这个零分布。蒙特卡罗模拟表示这个方法最小化了FP并且因为没有bias弥补了正确性。
(分组对比)
以上的图表表示了单个朋友的行为的影响随着关系的强度而增加。对于明示的投票,所有的观察到的处理效应超过了零分布,说明他们是显著的与随机的结果不同。对于经过确认的投票在弱关系接近于0,在强关系时表现出峰值并且超出null分布。
说明了关系的强弱对于现实生活中的投票行为的传播是很重要的。(在实验中我们可以将实验数据与null distribution对比得到验证)
好友定义:定义>=80%的为好朋友(简化分析),其他的为朋友。人均10个好朋友和139个普通朋友。
结果表明用户比起默默无闻还是更加通过点击I voted来表现自己。
好朋友会影响现实生活中的举动,但是普通朋友只会影响线上的行为。
作者紧接着分析了这种传染影响的局限性—>更多的是intent to treat而不是treatment to treat
然后分析了用户之间的对于潜在的投票者的影响。表明了其对于在政治上的自我表达的重大影响和其在网络上的传播,甚至于弱关系也与传播相关。尽管好朋友在朋友之中只占据7%,但他们显著的占据对于现实生活中的投票和 polling-place search
研究结果:
结合现实来看,美国选举的出席人数在稳定增加,作者认为分析结果可以表明facebook的社会信息增加使出席人员增加。(作者在处理一些统计不能的问题(昵称,打印错误)上使用可以取样和观测的团体来代替,得到0.60%的出席的增长是由于facebook上的消息)
研究的结果表示在线的政治动员是有效的。尽管以前的研究表明在线的message其实是无效的,但是有可能是传统的取样大小并没有足够大以至于不能检测到这些不大的效果。
并且social动员要比仅仅使用information动员要有显著的效果,放出熟悉的面孔可以引人注目的提高动员信息的影响。
研究也表明好朋友相对于信息本身对于投票动员展现了4倍的影响。表明了好朋友和一般朋友之间影响的巨大差异。进一步的说,在线的信息也许会影响很多离线的行为,这启示了我们对于在线的社会媒体在社会中扮演的角色。
简要心得:
相对其他领域来说计算机的paper是很难在nature上发表的,这篇给人感觉并没有用到什么创造性的算法的paper却给人眼前一亮的感觉。事实上,我认为在机器学习的两大发展方向中,在模型算法方面其实已经日趋完善,而在属性选择方面由于其难度又很少有人去啃。我觉得,做数据挖掘与机器学习本质性区别就在于数据挖掘更强调backgrond的知识。如果我们要作出让人眼前一亮的research,也许适当的引入一些“杂学”的思想会更好,比如物理学,心理学,金融学等等。事实上,也许如同王垠在其一篇博客里所说,解决实际问题才是我们应该致力之路。
单从这篇paper来看,事实上给我们的启示还是很多的,先不说其研究社交网络的实验思路带来的指导意义。其指出对于用户之间传递关系中线上和线下在社会心理学上表现的一致性就是值得注意的。往前的paper多是表明在线message的无效性,但是这篇paper指出事实上可能是传统的取样大小不是足够的大所导致不能检测到微小的效果所造成的错误观点。也许这便是现在热议的big data除了大家老是说的hadoop和map reduce之外的另一个实际解决一以前不能解决问题的用途吧。