《Collective Opinion Spam Detection : Bridging Review Networks and Metadata》阅读笔记
Collective Opinion Spam Detection : Bridging Review Networks and Metadata
作者:Shebuti Rayana, Leman Akoglu
Stony Brook University Department of Computer Science
KDD 2015
Abstract
提出一种模型 \(SPEAGLE\),可以利用元数据、数据关系在一个统一得框架下去对于用户、评论、产品分类。
创新点/贡献/优势:
- 提出SPEAGLE充分利用所有图,行为和评论的内容信息
- SPEAGLE 构建用户-评论-产品的图去完成一个分类问题,利用元数据提取出信息,得到对于分类的先验知识。
- 它是无监督的模式,但是也可以轻松转化为半监督,只需要很少的标注就可以提高分类的准确性。
- 还提出了性能更优的模型SPLITE,使用更少更有效的特征进行处理。
Introduction
Model
FRAUDEAGLE Framework
构建一张图,\(G=(V, E^±)\) 节点为用户和产品,是一个二分图,利用评论进行连边。
\((ui,pj,s) \in E±\) \(s\in \{+,-\}\)
\(L_U=\{benign, spammer\}\)
\(L_P=\{good-quality, bad-quality\}\)
构建MRF Markov Random Field
从而计算所有节点分配标签y的一个概率值。
更新的一个转移方式
利用如下信息:
- 相比之下,良性用户通常会对优质产品发表正面评论,对不良质量产品发表负面评论
- 恶意评论者更有可能对劣质产品发表正面评论,或者相反
- 恶意评论者也可以撰写真实的评论来掩饰其欺骗行为
- 对于良性用户而言,对优质产品发表负面评论的可能性很小
但是MRF, 所有可能赋值的枚举都与网络大小成指数关系,因此对于大图来说是很难处理的。
所以采用迭代近似算法LBP (Loopy Belief Propagation)算法
Proposed Method SpEagle
\(L_P=\{non-target, target\}\) 由于是好产品还是坏产品不容易判断,并且容易受到影响。
改变转移矩阵为下图
From metadata to features to priors
\(x1i,...,xFi\)
S值在0-1之间,表示是否为spam的分数大小
选取的特征值xi
Semi-supervised SpEagle
我们只需将与spam的先验知识初始化为
The algorithm
首先输入是用户-评论-产品的一张图,对每一条边都赋值,包括有标签的和没标签的。
输出是每一种标签的的可能性
对点的概率值,进行赋值,对于有标注的就按照上面的值进行赋值,无标注的就按照公式2,使用提取的先验特征值,进行赋值
初始化边的消息值为1
枚举边,通过邻接节点的值更新消息值,直到收敛
对于每个点,计算出每种类型的可能性。
Light-weight SpEagle
原始的 SpEagle计算图中每种类型的每个(未标记)节点的所有特征
确定了评论特征的一小部分根据这些特征计算出的spam分数来初始化未标记评论的优先级,并为(未标记)用户和产品使用无偏先验{0.5,0.5}。 这大大减少了评论的特征提取开销,并完全避免了用户和产品使用它,从而仅在分类效果略有妥协的情况下实现了加速
Experiments
数据集
Yelp数据集包含由Yelp过滤和推荐的酒店和餐厅评论。
基本上达到最佳效果
使用半监督,明显提高分类效果
使用评论或者用户可以更好的分类,只使用产品,达到的效果还没有随机好
Conclusion
在这项工作中,提出了一个名为SpEagle的新整体框架,该框架可以选择性地利用关系数据(用户-评论-产品图)和元数据(行为和文本数据)来检测可疑的用户和评论以及spam所针对的产品。
主要的工作是
-
SpEagle实施基于二分网络的分类任务,该任务接受从元数据估计的节点的类分布的先验知识。
-
SpEagle 以无人监督的方式工作,但可以轻松利用标签(如果有)。 因此,我们引入SpEagle +的半监督版本,可显着提高性能。
-
我们进一步设计了名为SpLite的SpEagle的light version,该版本使用了很少的审核功能作为先验信息,从而显着提高了速度。
在三个真实的数据集上评估了我们的方法 带有标记的评论(已过滤与推荐),从Yelp.com收集。 因此,我们提供了迄今为止针对恶意评论检测的最大规模的定量评估结果。
我们的结果表明,SpEagle优于几种方法和最新技术。