Paper Gestalt - From CVPR2010
Paper Gestalt 原文翻译
摘要
由同行对会议的投稿论文进行评审,早已成为研究界一个不成文的规则。然而对于计算机视觉领域,随着投稿数量的急剧增加,评审的难度也越来越大了。例如,CVPR会议投稿论文数量在最近十年内翻了三倍。因此,评审会不得不求助于一些非理想的评审人,包括一些初出茅庐的硕士研究生、满腹牢骚的博士研究生、终身教授等。
本文仅仅通过观测文章的整体布局来建立一种简单直观的文章评价准则,并使用基本的计算机视觉技术建立一个预测系统来判定会议投稿文章是否应该被接收还是拒绝。这个系统可用在评审过程的初级阶段。本文的实验结果表明,尽管拒绝了15%的好文章,但能够“砍掉”超过50%的烂文章,为评审人大大节省了宝贵的时间。
最终,将本篇论文通过本文提出的预测系统进行评审测试,得到的结果令人欣喜---它有88.4%的概率被接受为好文章。
引言
本文将系统中起到区分能力的视觉特征集合称之为"paper gestalt(文章完型)"。
在建立本文的系统中,使用了强大的统计学习技术。
前人工作
基本上,迄今为止并没有什么技术方法能够用来剔除低质量的稿件。
一些非技术的方法能够消除临时起意和不称职的稿件。例如,强制性注册和摘要提交要提早一个星期于正文提交。金钱刺激政策(例如,提交费用)也被讨论过,但并没有在实际中使用。
应用文本处理中的一些技术方法也未尝不可。但是,这些技术仅仅分析了文章上下文本身,而忽略了丰富的视觉信息。况且,带有偏见性的训练数据集将会导致对于某些术语产生偏见性的处理。
到交稿之时,还并未发现任何企图通过计算机视觉技术实现自动评审过程的前人工作。不同于基于文本的处理方法,文本能够捕捉丰富的视觉信息,并且通过忽略本章的真实文本内容而达到隐私的保护。
本文方法
首先定义为一个二分类问题。
本文假设给定一个“样本--标签”的训练数据集{xi, yi},其中xi属于集合X,指代样本文章i的特征值向量;yi属于{0,1},是样本i的二分标记(本文中设定正样本为好文章,负样本为坏文章)。目的是学习得到一个函数f:X->{0,1}。
使用Adaboost学习方法构建系统。
。。。(此处略原理解释,详见参考文献[10]Adaboost)。。。
本文在此详细介绍了Adaboost分类器的原理及其算法伪码,尽管这并不会直接影响本文系统,但是可以增加文章完型特征,因此可以增加本文被录取的机率。尽管这是一个好的开始,但上述公式显然仍旧不足。
因此,仅仅为了审美目的,本文在下面复制了Maxwell的公式。(实际与本文方法无任何关联,仅仅为了“完型”)。
统计特征
给定一篇文章的图片,本文需要计算出大量的视觉特征用来作为分类器的输入。本文选择了一定的标准计算机视觉特征,包括梯度、纹理、色彩和空间信息。特别地,本文是基于LUV直方图、直方图的方向梯度和梯度幅值来计算视觉特征的。
实验和结果
众所周知,选择一个好的数据集对于发表很重要。为了训练本文的分类器并评估其性能,本文首先需要挑选一些好坏文章(或正负样本)集。本文挑选了下面几个顶级会议中录取的文章构成正样本集:CVPR2008,ICCV2009,CVPR2009。由于没有途径获取被拒文章,本文选择相同会议上workshop中文章构成近似负样本集。本文数据集包括1196个正样本和665个负样本。
本文将所有文章从PDF格式转为串联起来的图像格式,并将像素大小从1132调整到200像素。那些小于八页的论文,将由空白页弥补缺页,使得图像具有相同大小。
本文随机将数据分成25%的训练数据和75%的测试数据。所有汇报结果均为五次随机划分的测试结果的平均值。本文通过扫描分类器的信任值得到此曲线(如下图)。
文本的主要结论如下:如果本文假设允许好文章的被拒绝率在15%之内,因为人为评审也会存在失误,本系统可以将超过50%的坏文章剔除掉,这样减少了审阅者近一半的工作量。
分析
让我们近距离了解一下将好坏文章区分开来的视觉特征有哪些。
首先,本文列出了boost算法选择的几个特征的分布情况。着实地讲,本文并不确定这个数据表能揭示出什么,但本文相信,这个柱状图在审美上一定特别受欢迎。
接下来,本文着重强调了在好文章集中注意到的某些视觉特征。同样,下面也标注了坏文章中的一些特征。本系统的成功之处在于它能够捕捉到这些视觉性能的统计信息。
下面本文还展示了本文的缩小版本,并指出它包含和没有包含哪些好文章中的特性。并且将这幅图片也利用本系统进行测试,得到的后验概率为88.4%被录取,使我们放心本文适合CVPR会议。
本文的主要缺点是其对于8页限制而言太过于短小,仅有5页。而然,本文的有利之处在于尽管第7、8页需要额外缴纳每页$100的费用,我们期望收到$100的信用费,可以将本文制作为小于限制额一页。
总结和展望
本文讨论了一个计算机视觉论文的质量可以通过基本的视觉特征来进行较好地评估,并定义了文章的“完型”。本文提出一个由计算机视觉艺术状态的技术组成的系统,可以用来预测一篇文章是否被录用或被拒掉。尽管本分类器存在误判,但仍能减少一半的坏文章被误录用,且仅仅误拒15%的好文章。本预测系统是实时运行(分类一篇文章仅需0.5s),并且能够显著的提高审阅过程。
当然,本文也可能同时创造了一个猫和老鼠的游戏,使坏文章的作者开始添加更多的数学公式和彩色图片来针对这一算法。这些情况很难避免,但是我们相信,随着计算机视觉的进步,我们终将能够设计出更加出色的系统来分辨出过去那些仅为美学而肤浅添加的现象。
Review:
这篇文章在图形学和真实感课上都被老师推荐过,一直想找时间好好看下,其中的Adaboost算法正好在上学期的机器学习课上也深入学习过,年后抽空看后果然名不虚传。
首先撇开论点的标新立异外,尤其喜欢作者幽默的语言,特别是文中一些公式和图表被作者阐述为纯粹为了“审美需要”而画蛇添足来的,还有最后“猫和老鼠的游戏”。
这篇文章对于想再CVPR上发文章的我们童鞋来说也许是个不错的引导。一直相信,结果是一点一点小意识堆积而成的。在平时里的小课题总结或真枪实弹写paper时,这些小意识没准就成了左右你研究成果为100% or 0% 的局外关键因素呢!
不过就像作者所说,千万别投机取巧,只为了玩一局“猫和老鼠的游戏”~~~
另在CVCHINA上有一篇很好的review - http://www.cvchina.info/2010/06/22/cvpr2010-paper-gestalt/
此外,看此paper的过程中,我头脑中总盘旋着一个最近很热门的词汇: 数据和信息可视化 ???
posted on 2012-02-05 16:23 highstar88 阅读(927) 评论(0) 编辑 收藏 举报