CVPR 2013

今年的CVPR今天下午全部结束了。最后一天都是workshop，很多人都走了，原本写在日程安排上的很多invited talk都取消或者换了别人，原本很期待的panel discussion也大打折扣。索性早些时候就溜了，再待在会场真有些浪费时间。

CVPR是我第一次正式参加的学术会议（去年在多伦多的AAAI是溜过去看过，不算正式参加），CV领域的顶级会议，除了Berkeley的Jitendra Malik，基本上我能想到的CV大人物都来了，好文章也有不少。但会议规模太大，水文也不是只有一点点。从23号第一天开始到现在第六天结束，看到也学到了不少东西，这里做个总结简单备忘一下。

第一天的workshop和tutorial是最新鲜的时候。由于现在在做structured output learning，并且目前主要专注于semisupervised learning，就主要去了visual learning with weak supervision的tutorial。三个组织者Matthew Blaschko不太认识，Pawan Kumar和Ben Taskar的文章我都读过不少。Matthew讲了structured prediction的基础，包括基本的SSVM formulation，还有一些扩展到ranking的formulation。Pawan讲了latent SSVM，formulation还有CCCP。由于这是一个non-convex的问题，local optimum是一个大问题，Pawan后半部分就一直在介绍如何防止掉到差的local optimum。一个有意思的方法是Self-paced learning，想法是从easy cases开始，逐步添加更难的case，引导learner学到正确的东西。这个跟semi-supervised learning里面的概念很像，比如label propagation，总是从有标的数据开始，逐步扩展到更远的地方。SPL有一个非常简单的formulation，这是挺好的一个地方。基本上SPL跟Active learning相反，active learning里面总是选择最难的case。这里active learning不适用，因为active learning里面是learner算出一个最难的case，然后让人来标，但在semi-supervised learning里面，labeled cases是给定的，没有再标的余地。

第一天最热闹的是SUNw(Scene UNderstanding workshop)，重要的原因是有很多重量级的invited talk。Song-Chun Zhu讲了一些物理建模的东西，Deva Ramanan讲的和scene understanding感觉关系不大，还主要是他做的detection和pose estimation的工作。Larry Zitnick的talk非常有意思，他的想法是，现在scene understanding非常受限制于底层的detector和其他的一些工具，因为这些工具的不成熟，极大地影响了scene understanding。于是Larry想出了一个非常巧妙地方法绕过了这些底层的东西，直接解决上层的问题，假定底层问题已经解决。Larry的方法是建造一个High level的数据集，数据集中有所有细致的label，object bounding box，人脸表情，朝向，等等。构造这个数据集的方法是最巧妙的地方，不同于以往直接从真实图像出发，Larry的工作从clip art出发（就像powerpoint里面那种剪贴画），他们构造了一个游戏，用户可以用游戏提供的元素（男孩、女孩、各种玩具、树、动物、天气等等）构造一个场景。使用clip art的好处是所有的元素都有详尽的label，这样就避免了非常枯燥无聊的label过程，而是直接通过有趣的方式创建label。Yann LeCun也受邀给了一个talk，topic也是一成不变的convnet拯救世界的调调，有趣的是，Yann去年公开说明不再投稿到CVPR，但今年还是有挂了Yann的名字的论文发表。Li Fei-Fei讲了一个action recognition的东西，主要是他们提出一个新的feature，除此而外也没有什么意思。UMich的Silvio Savarese谈到了结合2D和3D的scene understanding，我觉得是正确的方向，但他的presentation比较无趣。值得一提的是，SUNw的组织者之一是中国学生Jianxiong Xiao，他在MIT的Antonio Torralba组里念完博士，马上要到Princeton做faculty了。得知这个消息对我也非常鼓舞，中国学生在学术界也是可以做得很好的。

除了Jianxiong以外，西海岸Stanford Li Fei-Fei的学生Jia Deng也即将毕业，拿到了UMich的faculty offer，都非常不错。但相比之下，我更喜欢Jianxiong的工作，Jia Deng主要做crowd sourcing，给人的感觉虽然方法很聪明，但做的并不是真正的vision。另外，开会期间还看到了曾经的楷模Dahua Lin，今年没有看到他的paper，他一个人来来往往好像圈子也不是很宽，不禁有一些感慨。

第二天有一个structured prediction的workshop，非常想去，但无奈要做志愿者，于是去了Dhruv Batra和Deva Ramanan办的tutorial管摄像管了半天。Tutorial是关于diverse prediction的，Dhruv这方面有不少文章，我在组里讲过两篇他的文章，总的感觉是diversity不像是一个很需要的应用，虽然这个diversity的数学形式还比较不错。Deva的学生Dennis Park讲了一些diverse prediction的基本算法，有一个A*搜索用来做diversity的算法，听上去挺有意思，但他没有细讲，另外M-best shortest path的算法大概了解，但也有细节不清楚。下午去了structured prediction的workshop。Pedro Felzenswalb讲了他最近在做的contour estimation，基本上感觉就是在contour map上用pattern potential，后来在一个poster session里面看到MIT的Joseph Lim做的相似的工作。但感觉上Pedro这个还只是实验性的工作，Joeseph已经有比较成型的方法了，而且结果也更好。最后Raquel Urtasun讲了她的研究，跟之前她在Toronto做Job talk的内容基本上完全一样，我就提前走了。第二天还有很多有意思的东西，但因为时间冲突没能都去参加。

主会第一天基本上是在紧张和兴奋中度过，没有心思看什么有意思的工作。不过上午Oral的Masaki Saito同学讲的东西看起来还挺有意思，有空要读一下。UBC的一篇stochastic deconvolution的文章看起来挺有意思，虽然我完全不了解deconvolution，但聊过以后大概知道了方法。很多大佬像William Freeman之类的都去了这篇文章的poster，我也得找机会读一下。

主会第二天是收获最密集的时段，但比较可悲的是因为做志愿者下午shape & segmentation的oral错过了。不过有很多新东西，论文挺多，后面再来一一总结，现在有些疲惫了，先就这样大概写写吧。同时这天公布了2016年CVPR在Seattle开的消息，后两年，CVPR'14在Columbus，Ohio；CVPR'15在Boston，Massachusetts。另外三个best paper奖也一一公布，最佳论文由Google摘得，但这篇论文也争议挺大；学生论文忘了是给谁了；Runner up由Marcus和Raquel他们的vision based odometry摘得，看过他们的demo，这篇文章效果真的非常不错。

主会第三天比较无趣，因为梓佳要去城中心转转，上午的议程我就没怎么参加了。下午去了Context & Scenes (ANN)的oral session，Mohammad的Cartesian k-means有意思，另外Cornell的Yun Jiang的Hallucinated Humans有意思，虽然和learning关系不大。

最后一天的workshop整体比较无趣，学到的东西不多。

有意思的文章我会再用下一篇博文总结一下。

posted on 2013-06-29 14:36 alexajia 阅读(1915) 评论(0) 收藏举报

刷新页面返回顶部

Alex的博客

CVPR 2013

导航

公告