随笔分类 -  CV论文阅读

摘要:DeepLDA 并不是把LDA模型整合到了Deep Network,而是利用LDA来指导模型的训练。从实验结果来看,使用DeepLDA模型最后投影的特征也是很discriminative 的,但是很遗憾没有看到论文是否验证了topmost 的hidden representation 是否也和sof 阅读全文
posted @ 2017-05-04 20:46 chenjunjie1994 阅读(855) 评论(0) 推荐(0)
摘要:Unsupervised deep embedding for clustering analysis 偶然发现这篇发在ICML2016的论文,它主要的关注点在于unsupervised deep embedding。据我所了解的,Unsupervised 学习是deep learning的一个难点 阅读全文
posted @ 2017-03-18 15:43 chenjunjie1994 阅读(3703) 评论(8) 推荐(0)
摘要:Pre: It is MY first time to see quite elegant a solution to seek a subspace for a group of local features. I list two related papers for your referenc 阅读全文
posted @ 2017-03-12 21:38 chenjunjie1994 阅读(293) 评论(0) 推荐(0)
摘要:生成式对抗网络GAN 1、 基本GAN 在论文《Generative Adversarial Nets》提出的GAN是最原始的框架,可以看成极大极小博弈的过程,因此称为“对抗网络”。一般包含两个部分:生成器(Generator)和判别器(Discriminator)。训练的过程是无监督学习。 先总结 阅读全文
posted @ 2017-01-19 13:33 chenjunjie1994 阅读(3322) 评论(0) 推荐(0)
摘要:初次接触Captioning的问题,第一印象就是Andrej Karpathy好聪明。主要从他的两篇文章开始入门,《Deep Fragment Embeddings for Bidirectional Image Sentence Mapping》和《Deep Visual-Semantic Ali 阅读全文
posted @ 2016-11-19 23:51 chenjunjie1994 阅读(10906) 评论(7) 推荐(1)
摘要:论文的关注点在于如何提高bounding box的定位,使用的是概率的预测形式,模型的基础是region proposal。论文提出一个locNet的深度网络,不在依赖于回归方程。论文中提到locnet可以很容易与现有的detection系统结合,但我困惑的是(1)它们的训练的方法,这点论文中没有明 阅读全文
posted @ 2016-08-18 22:10 chenjunjie1994 阅读(3298) 评论(1) 推荐(0)
摘要:论文主要介绍一种多人协作的视频事件识别的方法,使用attention模型+RNN网络,最近粗浅地学习了RNN网络,它比较适合用于处理序列的存在上下文作用的数据。 NCAA Basketball数据集 这个数据集是作者新构建的,一个事件4秒长度,在论文中共需识别11个事件。而且从训练集子集通过标注人物 阅读全文
posted @ 2016-08-15 16:47 chenjunjie1994 阅读(1131) 评论(1) 推荐(0)
摘要:论文的重点在于后面approximation部分。 在《Rank Pooling》的论文中提到,可以通过训练RankSVM获得参数向量d,来作为视频帧序列的representation。而在dynamic论文中发现,这样的参数向量d,事实上与image是同等大小的,也就是说,它本身是一张图片(假如m 阅读全文
posted @ 2016-08-15 16:37 chenjunjie1994 阅读(2605) 评论(0) 推荐(0)
摘要:这是期刊论文的版本,不是会议论文的版本。看了论文之后,只能说,太TM聪明了。膜拜~~ 视频的表示方法有很多,一般是把它看作帧的序列。论文提出一种新的方法去表示视频,用ranking function的参数编码视频的帧序列。它使用一个排序函数(ranking function)主要基于这样的假设:帧的 阅读全文
posted @ 2016-08-10 10:15 chenjunjie1994 阅读(4552) 评论(0) 推荐(0)
摘要:论文的三个贡献 (1)提出了two-stream结构的CNN,由空间和时间两个维度的网络组成。 (2)使用多帧的密集光流场作为训练输入,可以提取动作的信息。 (3)利用了多任务训练的方法把两个数据集联合起来。 Two stream结构 视屏可以分成空间与时间两个部分,空间部分指独立帧的表面信息,关于 阅读全文
posted @ 2016-08-07 09:01 chenjunjie1994 阅读(10279) 评论(0) 推荐(0)
摘要:密集轨迹的方法是通过在视频帧上密集地采样像素点并且在追踪,从而构造视频的局部描述子,最后对视频进行分类的方法依然是传统的SVM等方法。 生成密集轨迹: (1)从8个不同的空间尺度中采样,它们的尺度差因子为,而采样的点只需要简单地每间隔W = 5个像素取一个点即可。 (2)对于下一个点位置的估计,通过 阅读全文
posted @ 2016-08-04 15:56 chenjunjie1994 阅读(1596) 评论(0) 推荐(0)
摘要:YOLO的一大特点就是快,在处理上可以达到完全的实时。原因在于它整个检测方法非常的简洁,使用回归的方法,直接在原图上进行目标检测与定位。 多任务检测: 网络把目标检测与定位统一到一个深度网络中,而且可以同时在原图上检测多个物体。步骤总结如下: (1)把图片分割成S*S个方格,假如某个物体的中点落在其 阅读全文
posted @ 2016-08-04 12:10 chenjunjie1994 阅读(3819) 评论(0) 推荐(0)
摘要:目的: 提升深度神经网络的性能。 一般方法带来的问题: 增加网络的深度与宽度。 带来两个问题: (1)参数增加,数据不足的情况容易导致过拟合 (2)计算资源要求高,而且在训练过程中会使得很多参数趋向于0,浪费计算资源。 解决方法: 使用稀疏连接替代稠密结构。 理论依据(Arora):一个概率分布可以 阅读全文
posted @ 2016-08-01 20:17 chenjunjie1994 阅读(4563) 评论(0) 推荐(0)
摘要:目的: 通过用Mlpconv层来替代传统的conv层,可以学习到更加抽象的特征。传统卷积层通过将前一层进行了线性组合,然后经过非线性激活得到(GLM),作者认为传统卷积层的假设是基于特征的线性可分。而Mlpconv层使用多层感知机,是一个深层的网络结构,可以近似任何非线性的函数。在网络中高层的抽象特 阅读全文
posted @ 2016-08-01 16:20 chenjunjie1994 阅读(571) 评论(0) 推荐(0)
摘要:由RCNN到FAST RCNN一个很重要的进步是实现了多任务的训练,但是仍然使用Selective Search算法来获得ROI,而FASTER RCNN就是把获得ROI的步骤使用一个深度网络RPN来实现。一个FASTER RCNN可以看作是一个RPN + FAST RCNN的组合,两者通过共享CO 阅读全文
posted @ 2016-07-27 10:53 chenjunjie1994 阅读(6023) 评论(0) 推荐(0)
摘要:Fast RCNN的结构: 先从这幅图解释FAST RCNN的结构。首先,FAST RCNN的输入是包含两部分,image以及region proposal(在论文中叫做region of interest,ROI)。Image经过深度网络(deep network)之后得到feature map, 阅读全文
posted @ 2016-07-24 19:38 chenjunjie1994 阅读(1785) 评论(0) 推荐(0)
摘要:R-CNN总结 不总结就没有积累 R-CNN的全称是 Regions with CNN features。它的主要基础是经典的AlexNet,使用AlexNet来提取每个region特征,而不再是传统的SIFT、SURF的特征。同时,还利用了AlexNet本来的功能:分类,这时所得的分类结果相当于预 阅读全文
posted @ 2016-07-22 14:48 chenjunjie1994 阅读(2738) 评论(0) 推荐(1)