论文Active Feature Acquisition with Supervised Matrix Completion的感想
这是 KDD18的Research Track 的一篇 paper。在pricai-18会议上亲自听到了论文的第二位作者做的报告,感觉是一篇非常好的工作。
回来后,打印了论文,并把论文的除实验外的部分通读了一遍。
这篇文章针对许多应用中会可能出现的 feature missing 问题,特征缺失通常会导致训练数据集不够完备进而导致最终的分类器性能不好。通常,拿到缺失了部分特征的数据集后,可以用矩阵补全的方法,恢复出缺失的特征,但这恢复值可能有误差。若考虑可以对缺失的特征值通过重新收集数据(重新测量等方式)获取其真正的值(ground-truth),则最终可以获得更好的分类器,但要将缺失的特征值补上其真实值通常需要付出额外的代价。考虑到,一方面,数据集中的同一example的特征集存在冗余性,可以从一些已有的特征中恢复出部分缺失特征;另一方面,填充缺失特征的最终目标是为了提升最后的分类性能,不同的缺失特征对于提升分类性能的重要性不同,同时补充不同的特征缺失值的花费可能也不同。故没有必要恢复出全部的缺失特征值,考虑将矩阵补全和恢复特征的真实值结合起来。
注意到:以往的矩阵补全可能没有利用样例的标记信息,但实际上样例的标记信息可以作为监督信息来指导矩阵的补全,例如考虑到同一类样本间的特征可能更加接近,可以对补全得到的值加上某些限制。此即所谓的 supervised matrix completion。
同时,可能已观察到的特征不足以恢复出全部的缺失特征,因此找出那些最具有信息量的特征,并用他们来恢复其他特征,并提升分类性能是一个 feasible idea
个人认为,这篇文章 selling points 是考虑了用监督信息来进行矩阵补全,并提出了一个将矩阵补全与主动特征选择结合在一起的一个框架。
这次就胡乱写写,下次好好写~