《Collective Opinion Spam Detection : Bridging Review Networks and Metadata》阅读笔记

Collective Opinion Spam Detection : Bridging Review Networks and Metadata

作者：Shebuti Rayana， Leman Akoglu

Stony Brook University Department of Computer Science

KDD 2015

Abstract

提出一种模型 \(SPEAGLE\)，可以利用元数据、数据关系在一个统一得框架下去对于用户、评论、产品分类。

创新点/贡献/优势：

提出SPEAGLE充分利用所有图，行为和评论的内容信息
SPEAGLE 构建用户-评论-产品的图去完成一个分类问题，利用元数据提取出信息，得到对于分类的先验知识。
它是无监督的模式，但是也可以轻松转化为半监督，只需要很少的标注就可以提高分类的准确性。
还提出了性能更优的模型SPLITE，使用更少更有效的特征进行处理。

Introduction

Model

FRAUDEAGLE Framework

构建一张图，\(G=(V, E^±)\) 节点为用户和产品，是一个二分图，利用评论进行连边。

\((ui,pj,s) \in E±\) \(s\in \{+,-\}\)

\(L_U=\{benign, spammer\}\)

\(L_P=\{good-quality, bad-quality\}\)

构建MRF Markov Random Field

从而计算所有节点分配标签y的一个概率值。

更新的一个转移方式

利用如下信息：

相比之下，良性用户通常会对优质产品发表正面评论，对不良质量产品发表负面评论
恶意评论者更有可能对劣质产品发表正面评论，或者相反
恶意评论者也可以撰写真实的评论来掩饰其欺骗行为
对于良性用户而言，对优质产品发表负面评论的可能性很小

但是MRF，所有可能赋值的枚举都与网络大小成指数关系，因此对于大图来说是很难处理的。

所以采用迭代近似算法LBP （Loopy Belief Propagation）算法

Proposed Method SpEagle

\(L_P=\{non-target, target\}\) 由于是好产品还是坏产品不容易判断，并且容易受到影响。

改变转移矩阵为下图

From metadata to features to priors

\(x1i,...,xFi\)

S值在0-1之间，表示是否为spam的分数大小

选取的特征值xi

Semi-supervised SpEagle

我们只需将与spam的先验知识初始化为

The algorithm

首先输入是用户-评论-产品的一张图，对每一条边都赋值，包括有标签的和没标签的。

输出是每一种标签的的可能性

对点的概率值，进行赋值，对于有标注的就按照上面的值进行赋值，无标注的就按照公式2，使用提取的先验特征值，进行赋值

初始化边的消息值为1

枚举边，通过邻接节点的值更新消息值，直到收敛

对于每个点，计算出每种类型的可能性。

Light-weight SpEagle

原始的 SpEagle计算图中每种类型的每个（未标记）节点的所有特征

确定了评论特征的一小部分根据这些特征计算出的spam分数来初始化未标记评论的优先级，并为（未标记）用户和产品使用无偏先验{0.5,0.5}。这大大减少了评论的特征提取开销，并完全避免了用户和产品使用它，从而仅在分类效果略有妥协的情况下实现了加速

Experiments

数据集

Yelp数据集包含由Yelp过滤和推荐的酒店和餐厅评论。

基本上达到最佳效果

使用半监督，明显提高分类效果

使用评论或者用户可以更好的分类，只使用产品，达到的效果还没有随机好

Conclusion

在这项工作中，提出了一个名为SpEagle的新整体框架，该框架可以选择性地利用关系数据（用户-评论-产品图）和元数据（行为和文本数据）来检测可疑的用户和评论以及spam所针对的产品。

主要的工作是

SpEagle实施基于二分网络的分类任务，该任务接受从元数据估计的节点的类分布的先验知识。
SpEagle 以无人监督的方式工作，但可以轻松利用标签（如果有）。因此，我们引入SpEagle +的半监督版本，可显着提高性能。
我们进一步设计了名为SpLite的SpEagle的light version，该版本使用了很少的审核功能作为先验信息，从而显着提高了速度。

在三个真实的数据集上评估了我们的方法带有标记的评论（已过滤与推荐），从Yelp.com收集。因此，我们提供了迄今为止针对恶意评论检测的最大规模的定量评估结果。

我们的结果表明，SpEagle优于几种方法和最新技术。

posted @ 2020-10-20 14:26 C_W_K 阅读(575) 评论(0) 收藏举报

刷新页面返回顶部

YaoYaoLe

目前研一打算将文章迁至 https://blog.yaoyaole.top/

《Collective Opinion Spam Detection : Bridging Review Networks and Metadata》阅读笔记

Collective Opinion Spam Detection : Bridging Review Networks and Metadata

Abstract

Introduction

Model

FRAUDEAGLE Framework

Proposed Method SpEagle

Experiments

Conclusion

公告

YaoYaoLe

目前研一 打算将文章迁至 https://blog.yaoyaole.top/

《Collective Opinion Spam Detection : Bridging Review Networks and Metadata》阅读笔记

Collective Opinion Spam Detection : Bridging Review Networks and Metadata

Abstract

Introduction

Model

FRAUDEAGLE Framework

Proposed Method SpEagle

Experiments

Conclusion

公告

目前研一打算将文章迁至 https://blog.yaoyaole.top/