CVPR 2013 的一些文章
在这里总结一些CVPR'13中有意思的文章,备忘。因为个人喜好和研究方向的关系,选的文章主要是learning、structured prediction方面的,肯定不涵盖所有优秀的文章。先列一个列表,日后读过文章之后再来详细记录一下。
Rolling Riemannian Manifolds to Solve the Multi-class Classification Problem
Rui Caseiro, Pedro Martins, João F. Henriques, Fátima Silva Leite, Jorge Batista
Discrete MRF Inference of Marginal Densities for Non-uniformly Discretized Variable Space
Masaki Saito, Takayuki Okatani, Koichiro Deguchi
Joint 3D Scene Reconstruction and Class Segmentation
Christian Häne, Christopher Zach, Andrea Cohen, Roland Angst, Marc Pollefeys
这篇文章看起来挺酷,我第一次见到有人做3D segmentation,当然医学3D图像的分割早就有人做,不过这个做的是natural images,当然很可能也有人做过。不过对我来说是新的,要读一读。
Weakly Supervised Learning of Mid-Level Features with Beta-Bernoulli Process Restricted Boltzmann Machines
Roni Mittelman, Honglak Lee, Benjamin Kuipers, Silvio Savarese
一篇用RBM学attributes的文章,来自Honglak Lee和Silvio Savarese,应该不会差。
Fine-Grained Crowdsourcing for Fine-Grained Recognition
Jia Deng, Jonathan Krause, Li Fei-Fei
听Jia Deng的报告了解到这是个很聪明的idea,听过之后也很容易理解,但我想知道一些细节。
Discriminative Non-blind Deblurring
Uwe Schmidt, Carsten Rother, Sebastian Nowozin, Jeremy Jancsary, Stefan Roth
拿到今年best student paper的文章,来自MSRC,不会差。
Efficient Object Detection and Segmentation for Fine-Grained Recognition
Anelia Angelova, Shenghuo Zhu
看题目我以为这个是做detection和segmentation结合的,但后来在Anelia的poster那里才知道这篇文章根本没有传统意义上的detection,不过他们的结果看起来很好,想看一下细节。
Stochastic Deconvolution
James Gregson, Felix Heide, Matthias B. Hullin, Mushfiqur Rouf, Wolfgang Heidrich
一篇de-blurring的文章,听他们讲poster的时候觉得想法有些意思,但不完全懂,加上不少大佬当时也在那个poster那里,应该想法不错,要读。
Auxiliary Cuts for General Classes of Higher Order Functionals
Ismail Ben Ayed, Lena Gorelick, Yuri Boykov
当时是Yuri做的报告,听他讲的时候觉得和cardinality potential差不多,需要再读一下。
Fully-Connected CRFs with Non-Parametric Pairwise Potential
Neill D.F. Campbell, Kartic Subr, Jan Kautz
遇到两篇做Fully-connected CRF的文章,这是其中之一。
Nonlinearly Constrained MRFs: Exploring the Intrinsic Dimensions of Higher-Order Cliques
Yun Zeng, Chaohui Wang, Stefano Soatto, Shing-Tung Yau
哈佛搞数学的人做的一篇文章,一开始以为就是high order potential做了一个奇怪的mapping,后来发现dual decomposition好像有点新东西,需要读一下。一开始还没发现丘成桐居然还是作者之一。。
Fast Trust Region for Segmentation
Lena Gorelick, Frank R. Schmidt, Yuri Boykov
Yuri的另一篇High order potential的文章。
Towards Efficient and Exact MAP-Inference for Large Scale Discrete Computer Vision Problems via Combinatorial Optimization
Joerg Hendrik Kappes, Markus Speth, Gerhard Reinelt, Christoph Schnoerr
一篇MAP inference的文章。
Universality of the Local Marginal Polytope
Daniel Prosa, Tomás Werner
证明了local marginal polytope的一个性质,有空读一下,估计理论比较够呛。
Fast Energy Minimization Using Learned State Filters
Matthieu Guillaumin, Luc Van Gool, Vittorio Ferrari
另一篇做fully connected CRF的文章。
Fast, Accurate Detection of 100,000 Object Classes on a Single Machine
Thomas Dean, Mark A. Ruzon, Mark Segal, Jonathon Shlens, Sudheendra Vijayanarasimhan, Jay Yagnik
今年的best paper。因为做志愿者的关系错过了这个oral talk,但后来去了他们的poster。这篇文章得奖也挺有争议的,我感觉他们唯一的创新是scalability,而且不可思议的是他们居然有100,000个object class的label(Google到底是不一样啊。。),这数据不公开,任何其他人都做不了。不过既然是best paper,就还是看一看吧。
Deep Learning Shape Priors for Object Segmentation
Fei Chen, Huimin Yu, Roland Hu, Xunxun Zeng
一篇用ShapeBM做segmentation的文章,当时在他们的poster我就很恼火,简单讲这篇文章的idea就是把ShapeBM直接搬过来做segmentation,讲解的那人说他们的novelty是ShapeBM没做segmentation,他们拿来做segmentation。我一听,我靠,这不trivial么。再细看,甚至一点定量的实验结果都没有,也没有尝试过不同的ShapeBM变形,更没有做过learning,真是连我去年做的course project都不如。当时做完course project写了个report有点想投NIPS,但心里也很虚觉得贡献不够大,而且老板也说做的不够就没投了,没想到这样的文章居然能发在CVPR上。不过刚才瞄了一下他们的论文,发现用的CRF不太一样,所以还是再看一下吧。
Discriminative Re-ranking of Diverse Segmentations
Payman Yadollahpour, Dhruv Batra, Gregory Shakhnarovich
Dhruv的diversity文章。
A Principled Deep Random Field Model for Image Segmentation
Pushmeet Kohli, Anton Osokin, Stefanie Jegelka
Pushmeet的high order potential文章,虽然挂着Deep random field的名字,但其实和deep learning没什么关系,不过还是要读。
Learning for Structured Prediction Using Approximate Subgradient Descent with Working Sets
Aurélien Lucchi, Yunpeng Li, Pascal Fua
一篇SSVM training的文章,说用working set可以加快subgradient descent。
Augmenting CRFs with Boltzmann Machine Shape Priors for Image Labeling
Andrew Kae, Kihyuk Sohn, Honglak Lee, Erik Learned-Miller
和我做的非常相似的一个工作,开会之前就读到了,来自Honglak Lee的group。庆幸能把我的文章在这届CVPR发出来,当然我们的文章还是比他们的要多很多内容,但发现很多人在做相似的工作还是很惊讶。
Cartesian K-Means
Mohammad Norouzi, David J. Fleet
Mohammad的文章。
Lost! Leveraging the Crowd for Probabilistic Visual Self-Localization
Marcus A. Brubaker, Andreas Geiger, Raquel Urtasun
Marcus的文章,今年的best paper runner up。他的talk我已经听过多次了,效果也非常赞,但想了解一下细节。
Hallucinated Humans as the Hidden Context for Labeling 3D Scenes
Yun Jiang, Hema Koppula, Ashutosh Saxena
有意思的一篇文章,通过把一个假想的人放到场景中来做推断。
Bottom-Up Segmentation for Top-Down Detection
Sanja Fidler, Roozbeh Mottaghi, Alan Yuille, Raquel Urtasun
用segmentation来帮助detection的文章,之前我们也想过类似的idea。
Histograms of Sparse Codes for Object Detection
Xiaofeng Ren, Deva Ramanan
Xiaofeng Ren说他们做的这个新feature在做detection的时候全面超过HOG,要看一下。
Maximum Cohesive Grid of Superpixels for Fast Object Localization
Liang Li, Wei Feng, Liang Wan, Jiawan Zhang
这篇文章可以把superpixel做的跟普通pixel一样,有grid structure。当时在他们的poster那里听的觉得挺有意思,但算法没有讲清楚。
总共27篇文章,读完要些时日,读过之后再来补一些。
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】凌霞软件回馈社区,博客园 & 1Panel & Halo 联合会员上线
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· 深入理解 Mybatis 分库分表执行原理
· 如何打造一个高并发系统?
· .NET Core GC压缩(compact_phase)底层原理浅谈
· 现代计算机视觉入门之:什么是图片特征编码
· .NET 9 new features-C#13新的锁类型和语义
· Sdcb Chats 技术博客:数据库 ID 选型的曲折之路 - 从 Guid 到自增 ID,再到
· 语音处理 开源项目 EchoSharp
· 《HelloGitHub》第 106 期
· Spring AI + Ollama 实现 deepseek-r1 的API服务和调用
· 使用 Dify + LLM 构建精确任务处理应用