CVPR 2013

今年的CVPR今天下午全部结束了。最后一天都是workshop,很多人都走了,原本写在日程安排上的很多invited talk都取消或者换了别人,原本很期待的panel discussion也大打折扣。索性早些时候就溜了,再待在会场真有些浪费时间。

CVPR是我第一次正式参加的学术会议(去年在多伦多的AAAI是溜过去看过,不算正式参加),CV领域的顶级会议,除了Berkeley的Jitendra Malik,基本上我能想到的CV大人物都来了,好文章也有不少。但会议规模太大,水文也不是只有一点点。从23号第一天开始到现在第六天结束,看到也学到了不少东西,这里做个总结简单备忘一下。

第一天的workshop和tutorial是最新鲜的时候。由于现在在做structured output learning,并且目前主要专注于semisupervised learning,就主要去了visual learning with weak supervision的tutorial。三个组织者Matthew Blaschko不太认识,Pawan Kumar和Ben Taskar的文章我都读过不少。Matthew讲了structured prediction的基础,包括基本的SSVM formulation,还有一些扩展到ranking的formulation。Pawan讲了latent SSVM,formulation还有CCCP。由于这是一个non-convex的问题,local optimum是一个大问题,Pawan后半部分就一直在介绍如何防止掉到差的local optimum。一个有意思的方法是Self-paced learning,想法是从easy cases开始,逐步添加更难的case,引导learner学到正确的东西。这个跟semi-supervised learning里面的概念很像,比如label propagation,总是从有标的数据开始,逐步扩展到更远的地方。SPL有一个非常简单的formulation,这是挺好的一个地方。基本上SPL跟Active learning相反,active learning里面总是选择最难的case。这里active learning不适用,因为active learning里面是learner算出一个最难的case,然后让人来标,但在semi-supervised learning里面,labeled cases是给定的,没有再标的余地。

第一天最热闹的是SUNw(Scene UNderstanding workshop),重要的原因是有很多重量级的invited talk。Song-Chun Zhu讲了一些物理建模的东西,Deva Ramanan讲的和scene understanding感觉关系不大,还主要是他做的detection和pose estimation的工作。Larry Zitnick的talk非常有意思,他的想法是,现在scene understanding非常受限制于底层的detector和其他的一些工具,因为这些工具的不成熟,极大地影响了scene understanding。于是Larry想出了一个非常巧妙地方法绕过了这些底层的东西,直接解决上层的问题,假定底层问题已经解决。Larry的方法是建造一个High level的数据集,数据集中有所有细致的label,object bounding box,人脸表情,朝向,等等。构造这个数据集的方法是最巧妙的地方,不同于以往直接从真实图像出发,Larry的工作从clip art出发(就像powerpoint里面那种剪贴画),他们构造了一个游戏,用户可以用游戏提供的元素(男孩、女孩、各种玩具、树、动物、天气等等)构造一个场景。使用clip art的好处是所有的元素都有详尽的label,这样就避免了非常枯燥无聊的label过程,而是直接通过有趣的方式创建label。Yann LeCun也受邀给了一个talk,topic也是一成不变的convnet拯救世界的调调,有趣的是,Yann去年公开说明不再投稿到CVPR,但今年还是有挂了Yann的名字的论文发表。Li Fei-Fei讲了一个action recognition的东西,主要是他们提出一个新的feature,除此而外也没有什么意思。UMich的Silvio Savarese谈到了结合2D和3D的scene understanding,我觉得是正确的方向,但他的presentation比较无趣。值得一提的是,SUNw的组织者之一是中国学生Jianxiong Xiao,他在MIT的Antonio Torralba组里念完博士,马上要到Princeton做faculty了。得知这个消息对我也非常鼓舞,中国学生在学术界也是可以做得很好的。

除了Jianxiong以外,西海岸Stanford Li Fei-Fei的学生Jia Deng也即将毕业,拿到了UMich的faculty offer,都非常不错。但相比之下,我更喜欢Jianxiong的工作,Jia Deng主要做crowd sourcing,给人的感觉虽然方法很聪明,但做的并不是真正的vision。另外,开会期间还看到了曾经的楷模Dahua Lin,今年没有看到他的paper,他一个人来来往往好像圈子也不是很宽,不禁有一些感慨。

第二天有一个structured prediction的workshop,非常想去,但无奈要做志愿者,于是去了Dhruv Batra和Deva Ramanan办的tutorial管摄像管了半天。Tutorial是关于diverse prediction的,Dhruv这方面有不少文章,我在组里讲过两篇他的文章,总的感觉是diversity不像是一个很需要的应用,虽然这个diversity的数学形式还比较不错。Deva的学生Dennis Park讲了一些diverse prediction的基本算法,有一个A*搜索用来做diversity的算法,听上去挺有意思,但他没有细讲,另外M-best shortest path的算法大概了解,但也有细节不清楚。下午去了structured prediction的workshop。Pedro Felzenswalb讲了他最近在做的contour estimation,基本上感觉就是在contour map上用pattern potential,后来在一个poster session里面看到MIT的Joseph Lim做的相似的工作。但感觉上Pedro这个还只是实验性的工作,Joeseph已经有比较成型的方法了,而且结果也更好。最后Raquel Urtasun讲了她的研究,跟之前她在Toronto做Job talk的内容基本上完全一样,我就提前走了。第二天还有很多有意思的东西,但因为时间冲突没能都去参加。

主会第一天基本上是在紧张和兴奋中度过,没有心思看什么有意思的工作。不过上午Oral的Masaki Saito同学讲的东西看起来还挺有意思,有空要读一下。UBC的一篇stochastic deconvolution的文章看起来挺有意思,虽然我完全不了解deconvolution,但聊过以后大概知道了方法。很多大佬像William Freeman之类的都去了这篇文章的poster,我也得找机会读一下。

主会第二天是收获最密集的时段,但比较可悲的是因为做志愿者下午shape & segmentation的oral错过了。不过有很多新东西,论文挺多,后面再来一一总结,现在有些疲惫了,先就这样大概写写吧。同时这天公布了2016年CVPR在Seattle开的消息,后两年,CVPR'14在Columbus,Ohio;CVPR'15在Boston,Massachusetts。另外三个best paper奖也一一公布,最佳论文由Google摘得,但这篇论文也争议挺大;学生论文忘了是给谁了;Runner up由Marcus和Raquel他们的vision based odometry摘得,看过他们的demo,这篇文章效果真的非常不错。

主会第三天比较无趣,因为梓佳要去城中心转转,上午的议程我就没怎么参加了。下午去了Context & Scenes (ANN)的oral session,Mohammad的Cartesian k-means有意思,另外Cornell的Yun Jiang的Hallucinated Humans有意思,虽然和learning关系不大。

最后一天的workshop整体比较无趣,学到的东西不多。

有意思的文章我会再用下一篇博文总结一下。

 

 

posted on 2013-06-29 14:36  alexajia  阅读(1869)  评论(0编辑  收藏  举报

导航