《Collective Opinion Spam Detection : Bridging Review Networks and Metadata》阅读笔记

Collective Opinion Spam Detection : Bridging Review Networks and Metadata

作者:Shebuti Rayana, Leman Akoglu

Stony Brook University Department of Computer Science

KDD 2015

Abstract

提出一种模型 \(SPEAGLE\),可以利用元数据、数据关系在一个统一得框架下去对于用户、评论、产品分类。

创新点/贡献/优势:

  • 提出SPEAGLE充分利用所有图,行为和评论的内容信息
  • SPEAGLE 构建用户-评论-产品的图去完成一个分类问题,利用元数据提取出信息,得到对于分类的先验知识。
  • 它是无监督的模式,但是也可以轻松转化为半监督,只需要很少的标注就可以提高分类的准确性。
  • 还提出了性能更优的模型SPLITE,使用更少更有效的特征进行处理。

Introduction

image-20200926201531179

Model

FRAUDEAGLE Framework

构建一张图,\(G=(V, E^±)\) 节点为用户和产品,是一个二分图,利用评论进行连边。

\((ui,pj,s) \in E±\) \(s\in \{+,-\}\)

\(L_U=\{benign, spammer\}\)

\(L_P=\{good-quality, bad-quality\}\)

构建MRF Markov Random Field

image-20200926203614831

从而计算所有节点分配标签y的一个概率值。

更新的一个转移方式

image-20200926203754647

利用如下信息:

  • 相比之下,良性用户通常会对优质产品发表正面评论,对不良质量产品发表负面评论
  • 恶意评论者更有可能对劣质产品发表正面评论,或者相反
  • 恶意评论者也可以撰写真实的评论来掩饰其欺骗行为
  • 对于良性用户而言,对优质产品发表负面评论的可能性很小

但是MRF, 所有可能赋值的枚举都与网络大小成指数关系,因此对于大图来说是很难处理的。

所以采用迭代近似算法LBP (Loopy Belief Propagation)算法

Proposed Method SpEagle

\(L_P=\{non-target, target\}\) 由于是好产品还是坏产品不容易判断,并且容易受到影响。

改变转移矩阵为下图

image-20200926213405176

From metadata to features to priors

\(x1i,...,xFi\)

image-20200926213603112

image-20200926213610305

S值在0-1之间,表示是否为spam的分数大小

选取的特征值xi

image-20200926213707098

image-20200926213718316

image-20200927231339898

image-20200926213739072

Semi-supervised SpEagle

我们只需将与spam的先验知识初始化为image-20200926214244280

The algorithm

image-20200927231314205

首先输入是用户-评论-产品的一张图,对每一条边都赋值,包括有标签的和没标签的。

输出是每一种标签的的可能性

image-20200927231554767

对点的概率值,进行赋值,对于有标注的就按照上面的值进行赋值,无标注的就按照公式2,使用提取的先验特征值,进行赋值

image-20200927231759751

初始化边的消息值为1

image-20200927231851443

枚举边,通过邻接节点的值更新消息值,直到收敛

image-20200927231935673

对于每个点,计算出每种类型的可能性。

Light-weight SpEagle

原始的 SpEagle计算图中每种类型的每个(未标记)节点的所有特征

确定了评论特征的一小部分根据这些特征计算出的spam分数来初始化未标记评论的优先级,并为(未标记)用户和产品使用无偏先验{0.5,0.5}。 这大大减少了评论的特征提取开销,并完全避免了用户和产品使用它,从而仅在分类效果略有妥协的情况下实现了加速

Experiments

数据集

image-20200926221706137

Yelp数据集包含由Yelp过滤和推荐的酒店和餐厅评论。

image-20200926221736741

基本上达到最佳效果

image-20200926221809014

使用半监督,明显提高分类效果

image-20200926221817735

使用评论或者用户可以更好的分类,只使用产品,达到的效果还没有随机好

image-20200926221844198

image-20200926221915476

Conclusion

在这项工作中,提出了一个名为SpEagle的新整体框架,该框架可以选择性地利用关系数据(用户-评论-产品图)和元数据(行为和文本数据)来检测可疑的用户和评论以及spam所针对的产品。

主要的工作是

  • SpEagle实施基于二分网络的分类任务,该任务接受从元数据估计的节点的类分布的先验知识。

  • SpEagle 以无人监督的方式工作,但可以轻松利用标签(如果有)。 因此,我们引入SpEagle +的半监督版本,可显着提高性能。

  • 我们进一步设计了名为SpLite的SpEagle的light version,该版本使用了很少的审核功能作为先验信息,从而显着提高了速度。

    在三个真实的数据集上评估了我们的方法 带有标记的评论(已过滤与推荐),从Yelp.com收集。 因此,我们提供了迄今为止针对恶意评论检测的最大规模的定量评估结果。

    我们的结果表明,SpEagle优于几种方法和最新技术。

posted @ 2020-10-20 14:26  C_W_K  阅读(458)  评论(0编辑  收藏  举报