代码改变世界

什么是多视图学习(Multiview Learning)?

2019-08-03 18:12  唐建威  阅读(8921)  评论(1编辑  收藏  举报

在介绍多视图学习之前,我们先回顾一下单视图学习。单视图学习可以在传统的垃圾邮件过滤中见到。比如我们训练一个classifier去筛选垃圾邮件,我们可以通过自然语言处理(NLP)去通过邮件的内容来判断它是否是垃圾邮件。我们通常会增加一些features,比如标点符号的比例,邮件的文档长度。新的features和文档内容放在同一个视图下,我们在这里可以把视图理解为一个pd.dataframe。然后通过监督学习(supervised-learning)去训练一个模型。

多视图学习则可以解决更复杂的问题。我们通过一个简单的例子来理解。我们现在构建一个公司防御系统,来检测公司员工的异常行为。这个防御系统可以看到员工的邮件往来网络,以及员工访问公司文件的日志。系统通过文件访问日志了解到,员工A,B,C只访问资源I,员工D,E,F,G则同时访问资源I和资源II。这时没有异常信息可以被检测到。接下来,系统通过邮件网络了解到:员工{A,B,C,D}处于一个团队,员工{E,F,G}则在另外一个团队。通过这2个视图,我们则可以检测到员工D的异常行为。因为第一个团队的{A,B,C,D}里只有他一人同时访问资源I和资源II,在这里我们可以把这个团队理解为项目I的开发部门。{E,F,G}则同时负责项目I和项目II(比如说管理角色)。对第二个团队来说,同时访问资源I和资源II是很正常的,而第一个团队的D则不应该访问资源II。我们可以看到有必要从两个不同的视图来判断员工D有异常行为。

例子来源: Liu, A., & Lam, D. (2012). Using Consensus Clustering for Multi-view Anomaly Detection. In 2012 IEEE Symposium on Security and Privacy Workshops (pp. 117–124). IEEE. https://doi.org/10.1109/SPW.2012.18)

 

多视图学习同时也能做半监督学习(semi-supervised learning)来节约人工成本,以及应对擅长绕开检测机制的恶意用户。未完待续。。。