【论文笔记】Encoding Social Information with Graph Convolutional Networks for Political Perspective Detection in News Media

Encoding Social Information with Graph Convolutional Networks for Political Perspective Detection in News Media

利用图卷积网络对社会信息进行编码以检测新闻媒体中的政治视角

摘要

确定影响媒体讨论新闻事件方式的政治视角是一项重要而富有挑战性的任务。在这篇文章中,我们强调了社会信息语境化的重要性,捕捉到这些信息是如何在社会网络中传播的。我们使用最近提出的一种表示关系信息的神经网络结构-图卷积网络来捕捉这些信息,并表明即使很少的社会信息分类也可以得到显著的改进。

1介绍

在过去十年中,我们目睹了信息生成和传播方式的巨大变化。现在,社交平台不再是雇佣记者和事实核查员来确保其所提供信息的有效性的少数专门来源,而是为任何用户提供传播其内容的手段,导致报道新闻事件的信息渠道和文章数量急剧增加。作为这一过程的直接结果,所提供的信息往往是由它们的基本观点、兴趣和意识形态所决定的。例如,请看下面两段话,讨论一位民主党参议员对美国政府最近关门的评论。

尽管这两篇文章讨论的是同一事件,但它们的观点却大相径庭。第一个是直接报道评论,而第二个则关注对这些评论的负面反应。识别视角差异并使其明确化,有助于增强对新形成的信息景观的信任,并确保所有视角都能被表达出来。它也有助于自动检测虚假内容和谣言识别信息室,其中仅突出一个透视图

传统上,确定作者的观点是一个文本分类问题,重点关注表明作者偏见的语言指标或问题框架短语。这些指标可以有效地捕捉到意识形态文本中的偏见,例如政策文件或政治辩论,这些文本不试图掩盖他们的政治倾向,使用以主题为中心的词汇。确定作者在新闻叙述中的偏见可能更具挑战性。新闻文章,就其性质而言,涵盖了非常多的主题,从而形成了一个多样化和动态的词汇表,随着新事件的展开不断更新。此外,与纯政治文本不同的是,新闻叙事试图保持公信力,显得公正。因此,偏见以微妙的方式引入,通常是通过强调故事的不同方面。

我们在本文中的主要见解是,可以利用传播信息的社会背景来缓解这个问题,方法是为信息提供更好的表示,在无法直接监督的情况下,使用基于认可文本内容并传播信息的用户的远程监督源。最近几部关于社交网络信息传播分析的著作,重点分析了社交网络中新闻源和用户之间的互动。然而,考虑到这个领域的动态和经常是对抗性的背景,新闻文章的真实来源可能是隐藏的、未知的,或者通过采取不同的身份来掩盖。我们的重点不是分析文档的来源,而是使用社会信息,捕获信息在网络中的共享方式,帮助指导文本表示,并在对文本内容进行决策时提供额外的支持。

 我们通过在一个空间中嵌入新闻文章和共享这些文章的社会圈子,构建了一种融入社会的文本表征,从而可以预测与之相关的政治偏见。图1描述了这些设置。该图通过活动链接将文章节点连接到用户节点(share),这些用户依次通过社交链接(follow)连接到政治关联用户(例如,共和党或民主党的twitter帐户)。通过将基于内容的文档表示与共享这些文档的用户的表示(基于他们的社会关系)对齐,我们定义了捕获这些信息的嵌入目标。我们使用最近提出的图嵌入框架,图卷积网络(GCN)(Kipf和Welling,2016,2017)来捕捉这些关系。gcn是对图进行操作的神经网络,类似于序列上的LSTMs,它基于给定节点的图邻域创建节点嵌入。在我们的问题背景下,嵌入文档考虑了文本内容,也考虑了共享文档的用户的社会背景,以及他们与其他具有已知政治关系的用户的关系。我们将这种强大的方法与传统的捕获节点间局部关系的图嵌入方法进行了比较。

考虑到在这个高度动态的领域中提供直接监督的困难,我们研究了当对文档进行直接监督时,以及当使用远程监督时(文档级别的分类依赖于通过社交网络传播政治倾向)的问题,这通常是不完整的,并提供了相互冲突的信息。

为了研究这些设置,我们关注美国的新闻报道。我们的语料库由超过10万篇文章组成,涵盖了超过2千个不同的新闻事件,大约94个不同的主题,发生了8年的时间。我们删除关于文章来源的任何信息(包括元数据和文本),并且只依赖于文本和社交媒体对它的反应。为了获取这些信息,我们收集了一组在Twitter上分享新闻文章的160万用户和少数政治关联用户,然后是分享用户,这些用户提供了远程监控。我们将问题转化为一个三级预测问题,捕获左偏、右偏或无偏(中心)。

我们的实验结果证明了我们方法的有效性。我们将直接文本分类或节点分类方法与基于嵌入的完全监督和远程监督设置进行了比较,显示了社会注入表示的重要性。

2相关工作

视角识别问题通常作为一个有监督的学习任务来研究(Lin等人,2006;Greene和Resnik,2009),在这个任务中训练分类器来区分两个特定的视角。例如,bitterlemons数据集包含594个描述以色列和巴勒斯坦观点的文档。最近,在SemEval-2019中,提出了一个超党派的新闻文章检测任务1。他们的数据集上目前报告的结果与我们的相当,仅使用文本信息,表明这确实是一项具有挑战性的任务。其他作品使用了偏见和隐含情感表达的语言指标(Greene和Resnik,2009;Recasens等人,2013a;Choi和Wiebe,2014;Elfardy等人,2015)。近年来,有几部作品研究了新闻文章中的框架偏见迹象(Baumer等人,2015年;Budak等人,2016年;Card等人,2016年;Field等人,2018年;Morstatter等人,2018年)。我们在这些工作的基础上,帮助塑造我们的文本表示方法。

 最近的作品关注虚假内容识别(V olkova等人,2017;Patwari等人,2017),包括最近的一项挑战,确定文章标题与其正文之间的关系。与这些不同的是,我们不会假设内容是错误的,而是询问它是否反映了不同的视角。

在图嵌入的背景下研究学习文本表示时使用社会信息(Pan等人,2016),扩展仅依赖图形关系的传统方法(Perozzi等人,2014;Tang等人,2015a;Grover和Leskovec,2016)和信息提取和情感任务(Yang等人,2016a;West等人,2014)。在这项工作中,我们重点关注GCNs(Kipf和Welling,2017;Schlichtkrull等人,2018),这是一个表示关系数据的最新框架,它将卷积网络的思想应用于图形。NLP任务的远程监控通常依赖于使用知识库(Mintz等人,2009),这与我们使用社会信息的设置不同。在(Zhou等人,2011年)中探讨了使用用户活动和已知用户偏见,我们的设置更具挑战性,因为我们无法访问此信息

3数据集描述

 我们从两个新闻聚合网站收集了10385篇关于2020年不同事件的新闻文章,讨论了94种事件类型,如选举、恐怖主义等。这些网站从多个角度分析新闻内容,使用众包和编辑审查方法指出的每一篇文章的偏见。我们对所有文档进行了预处理,以删除有关文章来源的任何信息。

我们收集了由Twitter用户组成的社交信息,这些用户共享所收集文章的链接。我们关注那些关注政治用户和经常分享新闻文章(至少100篇文章)的Twitter用户。我们发现了1604个这样的Twitter用户。政治用户名单是通过收集活跃的政治关联用户的信息创建的。它由135名推特用户组成,这些用户主要是政治家、政治记者和政治组织。政治用户和Twitter用户是分离的。数据集的摘要如表1所示。

Data Folds 基于三个标准:随机分离randomly separated、事件分离event separated和时间分离time separated,我们创建了多个数据分割data splits来评估我们的模型。在randomly separated下,我们对新闻文章进行划分,以便覆盖同一新闻事件的所有文章都将出现在一个single fold中;对于时间分隔的情况,我们对发布日期(从最早到最新)进行排序,并将其分成三组。每个时间使用一组作为训练数据(33%),另外两组作为测试数据(66%)。在整个监督分类实验中,我们使用相同的组进行评估。

Constructing the Social Information Graph 我们将相关关系表示为一个信息图,类似于图1所示。社会信息图G={V,E}由几种不同类型的顶点和边组成,定义如下:

  • 设$P\subset V$表示政治用户的集合。这些人都是Twitter用户,有着明确的、自我报告的政治偏见。这些人可能是政客、也有可能是主要报纸或政治组织(如共和党、众议院民主党)的政治作家。请注意,即使是具有相同政治意识形态的政治用户,他们在问题类型和议程的追求上也可能有很大的不同,这将反映在他们的追随者身上。
  • 设$U\subset V$表示通过分享新闻文章来积极传播内容的Twitter用户集。这些用户的政治偏见并不直接为人所知,只是通过他们在Twitter上关注的政治用户间接显示出来。
  • 设$A\subset V$表示Twitter用户(U)共享的新闻文章集。

图顶点通过一组按层次描述的边连接,如下所示:

  • $E_{UP}\subset  E$:所有Twitter用户都与他们关注的政治用户有联系。注意,Twitter用户可能连接到许多不同的政治用户。
  • $E_{AP}\subset  E$:所有的文章都连接到分享它们的Twitter用户。注意,一篇文章可能会被许多不同的Twitter用户共享。

4文本和图模型

 我们的目标是根据新闻文章的偏倚将其分为三类。因为我们有新闻文章的文本和社会信息。我们可以使用文本或图形模型来获得它们的表示。在这一部分中,我们简要介绍了文本表示方法,然后介绍了本文所考虑的基于图的模型。

4.1文章表征和语言偏误指标

为了预测新闻文章的bias,我们可以将其视为一个文档分类任务。我们使用新闻文章的文本内容来生成特征表示。决定此内容的适当表示是关键的设计选择之一。以前的作品要么使用传统的、人工设计的表征来捕捉偏差(Recasens等人,2013b),要么使用使用使用深度学习方法学习的潜在表征(Iyyer等人,2014b)。我们尝试了两种选择中的几种不同的选择,并通过训练分类器直接对文档进行偏差预测来进行比较。这些实验的结果总结在表2中。由于篇幅的限制,我们提供了这些备选方案的简要概述,并指出了相关论文中的完整描述。

Linear BoW 这些文章由77772个唯一的token组成。我们使用TFIDF向量作为获得的unigram特征。

Bias Features 这些特征是从广泛的文献中提取的基于内容的特征,涉及政治偏见、劝说和误传,捕捉文本的结构、情感、主题、复杂性、偏见和道德。我们使用资源(Horne等人,2018b)根据新闻文章文本生成141个特征。如(Horne等人,2018a)所示,这些特性可以有效地用于二进制超党派任务

Averaged Word Embedding (WE)使用预先训练的Glove单词嵌入(Pennington等人,2014年)的所有文档单词的平均向量来表示整篇文章。这是使用预先训练的单词嵌入的基本方法。

Skip-Thought Embedding 与不捕获上下文的平均词向量不同,我们还使用句子级编码器Skip-Thought(Kiros等人,2015)生成文本表示。我们将每个文档视为一个长句,并将其直接映射到4800维向量。

Hierarchical LSTM over tokens and sentences 我们使用了分层LSTM模型的简化版本(Yang等人,2016b)。在这种情况下,文档首先被标记成句子,然后每个句子被标记成单词。我们使用一个词级LSTM为每个句子构造一个向量表示,取所有隐藏状态的平均值。然后,我们在句子表示上运行另一个单层单向LSTM,通过取所有隐藏状态的平均值来获得文档表示。

4.2基于图的表示

 除了文本信息外,新闻文章也是第3节定义的信息网络的一部分。很明显,同一Twitter用户共享的新闻文章可能会有同样的偏见,共享大量新闻的用户在政治偏好上也很接近。共享用户与政治用户的关系是相似的。因此,根据一篇新闻文章的社会信息也可以预测偏见。我们设计了一个嵌入函数,将所有的图节点映射到一个低维向量空间中,这样图的关系就保留在嵌入空间中。在共享嵌入空间中,图中连接(或接近)的节点在向量表示之间应该具有更高的相似度。

4.2.1 直接观察

我们的第一种嵌入方法旨在直接保持两个顶点之间的局部成对邻近性。这类似于一阶图嵌入方法(Tang等人,2015b)。图中观察到两种不同的关系:Twitter用户到政治用户(follow)和新闻文章到Twitter用户(share)。我们构造了数据的多个视图,每个视图V对应一种特定类型的图关系。然后,我们可以为每个视图V定义一个损失函数lv,如下所示:

直接计算1和2很复杂,我们参考了流行的负采样方法(Mikolov等人,2013年),该方法将时间复杂度降低到与正示例对的数量成正比(即,在我们的例子中,边缘的数量)。

在DOR嵌入模型中,两个视图定义的损失与公式9中定义的分类损失相加,作为最终的损失函数进行优化。

 

4.2.2图卷积

图卷积网络是卷积神经网络的一个有效变种,它可以直接运算图。可看做微消息传递框架的特殊情况(Gilmer等人,2017年):

$h_{i}^{l}$是节点$v_{i}$的在l层的隐藏层节点,它的维度是$d^{l}$。$N(i)$是节点$v_{i}$的直接邻居节点的集合,通常也包括自己。来自局部邻居的传入消息聚合在一起并通过激活函数传递。$M^{l}$是特定的神经网络的函数,Kipf和Welling(2017)使用了简单的线性变换,在这里$W^{l}$是层特定的权重矩阵。

这种线性变换被证明能有效地在图上传播信息。它导致节点分类(Kipf和Welling,2017)、链路预测(Kipf和Welling,2016)和图形分类(Duvenaud等人,2015)方面的显著改进。一个GCN层可以表示如下:

 A代表的是邻接矩阵,解释的是(5)中的求和符号;H是特定层的表示矩阵,代表的就是中的h,而W就是权重矩阵。所以这个公式想表达的意思就是:有一个权重矩阵,可以整合这个网络中所有节点的值,但是不能整合完了就算了,还要考虑它们之间的连接关系(A)。

为了捕获图中的高阶关系,可以堆叠多个GCN层。本文考虑了一个用于半监督节点分类的双层GCN。我们的前进模式是:

 其中X是具有一个onehot的输入矩阵,V是图中所有节点的表示矩阵。

图2显示了我们的GCN模型如何从节点的本地邻域聚合信息的示例。橙色文档是感兴趣的节点。蓝边链接到一阶邻域,绿边链接到二阶邻域。

4.3 文本分类

新闻文章的表示v(通过文本模型或图形模型获得)捕获文档的高级信息。它可以作为前馈网络预测偏差标签的特征。

我们使用正确标签的负对数可能性作为分类训练损失:

5联合模型

 鉴于我们有两部分信息可供新闻文章使用,即文本信息和社会信息,因此将两者结合起来进行预测是很自然的。我们建议以联合训练的方式,将来自图形和文本模型的同一文档的表示对齐。对准的目标函数是:

$ a^{t}$是根据文档a的内容的嵌入形式;$a^{g}$是根据文档a的图结构的嵌入形式。

 再次使用负采样来降低时间复杂度。通过将同一篇新闻文章的文本和图形嵌入连接起来,使得偏倚信号在这两方面之间流动。因此,文本模型可以从社会信号中学习,图形模型也可以使用文本内容来调整嵌入。在全监督和远程监督的情况下,我们描述了联合模型的损失函数。

Full Supervision 在全监督的情况下,损失函数为:

三个损失函数分别是,文本内容的损失函数,图模型的损失函数,以及文本和图模型的对齐损失函数

Distant Supervision 远程监督不像全面监督的情况那样有有训练标签的文档,我们只有访问标签的政治用户。然而,我们仍然可以利用联合模型,将图表模型预测的标签看作是对新闻文章的监督。假设联合训练仍然可以受益于文档上嘈杂的训练标签

Inference 现在我们有了新闻文章的多个表示,我们定义了一个简化的推理过程,它还考虑了共享文档的用户。在测试时,我们可以使用文本模型(text)的嵌入、图形模型(graph)的嵌入和共享本文的用户(User)的嵌入对新闻文章进行预测。最后一种方法(用户)通过对所有Twitter用户共享文章a的偏见预测得分进行平均来工作。偏见预测得分在应用softmax(·)之前在等式8中计算:

最后,可以添加上面列出的两个或三个分数的组合来做出决定。

6 实验

 我们设计了实验来评估社会信息在完全监控环境下的贡献,以及当只有通过社会图才能进行远程监控时的贡献。我们首先评估了几种有助于将社会信息上下文化的文本分类模型。最后,我们评估我们的模型在很少的社会信息可用于测试新闻文章时进行预测的能力。

6.1细节

我们使用spaCy工具包对文档进行预处理。所有模型均采用PyTorch(Paszke等人,2017)。采用双曲正切(tanh)作为非线性激活函数。

在给定文本或社会表征的情况下,我们使用一个隐含层的前向神经网络进行偏差预测。单词级和句子级的LSTM隐藏状态的大小都是64。两个GCN层的隐藏状态的大小都是16。

对于神经网络的训练,我们使用Adam优化器(Kingma和Ba,2014)来更新参数。我们使用5%的训练数据作为验证集。

我们对200个阶段(50个阶段用于使用HLSTM的模型)进行了训练,并根据验证集上的性能选择最佳模型。

我们模型中的其他参数包括负样本大小k=5、小批量大小b=30(小批量更新仅用于具有HLSTM的模型)。

6.2结果

Text Classification Results 监督文本分类的结果汇总在表2中。我们报告了偏差预测的准确性。结果表明,在有监督文本分类设置中,HLSTM算法优于其它方法。另外,使用HLSTM表示添加手工设计的bias特性也无助于提高性能。

 Network Classification Results  我们在表3中显示了仅使用图形信息(无文本)预测偏差的结果。在四种情况下,GCN模型的性能都明显优于DOR模型。与文本分类的结果类似,随机和事件分割的性能是可比较的。不过,分时的表现却大幅下滑。这可以解释为,时态分离的新闻事件将讨论不同的实体和世界事件,结果将有非常不同的词分布。事件分隔的拆分不太容易受到此问题的影响,因为类似的图形和主题可能会在不同的事件中讨论。

 

Joint Model Results 表4显示了关节模型的结果。在联合训练中,通过文本和图形嵌入的对齐,两者的预测能力都有所提高。在联合模型中单独使用文本或图形表示在测试时的预测优于那些表2,3中的。

注意,当使用HLSTM模型来表示文本内容时,准确性的提高要大得多,因为它更具表现力。综合多个分数进行预测通常会获得更好的准确性。另一个值得注意的是,在完全监督设置下,远程监督设置的性能几乎可以与文本分类结果相媲美,这说明了我们的联合模型的强大性。

展示我们的模型处理具有不同数量社会信息的新闻文章的能力。我们训练和测试我们的联合模型在只有50%和10%的链接时。结果汇总在表5中。显然,随着更多的社交链接可用,性能也会提高。然而,即使在后一种情况下很少提供社交链接,我们的联合模型也能有效地传播信息,并能显著提高性能。

Qualitative Analysis 在表6中,我们比较了我们的文本和联合模型对一些新闻文章(只有标题显示在表中)的偏差预测。这些例子展示了偏见有时在文本中表达得多么微妙。借助于文章的社会背景的支持信息,我们的联合模型可以实现更可靠的预测

7结论

 本文遵循这样一种直觉,即在新闻文章文本中表达的政治观点也将反映在文件的传播方式和赞同者的身份上。我们提出了一个基于GCN的模型来捕获这些社会信息,并证明它提供了一个远程监控信号,从而使模型的性能与监控文本分类模型相当。在有监督的环境下,我们也研究了这种方法,并证明它可以显著地增强纯文本分类模型。

对文本消费的更广泛背景进行建模是更好地理解文本视角的重要一步。我们打算研究细粒度的政治透视图,捕捉不同事件的框架。

posted @ 2020-04-21 23:42  小千北同学超爱写代码  阅读(497)  评论(0编辑  收藏  举报