第三周 学习进度汇报

第三周

本周学习进度汇报:

  1. 理论学习 了解了Transformer在CV方向的应用(Vision Transformer模型);
  2. 理论学习 总结损失函数&优化器;
  3. 实践学习 基于Vision Transformer模型实现MNIST手写数据集图像分类;
  4. 实践学习 基于Vision Transformer模型实现5类花朵图像分类;
  5. 实践学习 基于CNN + ViT 实现flowers-102图像分类
  6. Vision Transformer模型学习笔记
  7. Vision Transformer代码(Pytorch版本)
  8. 基于ViT训练花分类数据集(5分类)
  9. 损失函数&优化器总结

本周学习总结:

  上周学习完Transformer基本理论后,对于Transformer如何应用在图像识别上不明所以。在好奇心的驱动下,去了解了Transformer是如何应用在图像上的。

  在了解之前,或许有个疑问。在CV领域,CNN一直是主流模型,且效果比较好,那么为什么会再提出一个模型来涉足CV领域呢?换句话说,CNN有什么不足,而Transformer在CV上又有什么优点。查阅资料后了解到,CNN存在局部感受野较局限的问题,为了获得全局信息,需要多层堆叠,但是随着层数增大信息量会衰竭,因此提取的特征注意力集中在某些区域。Transformer存在自注意力机制,能有效获得全局信息,并且多头可以将其映射到多个空间,使模型表达能力变强。根据Transformer模型思想,科研人员提出了Vision Transformer模型,令人惊奇的是,该模型在CV上表现的十分优秀。

  那么VIT是如何实现的呢?VIT提出了一个方法,就是将整个图像化整为零,从一张图片转化成多个相同大小的子图片(patch)。具体如:Vision Transformer模型学习笔记

  在学习完VIT模型后,同时拿一个小例子实现了VIT模型,但效果很差,直到现在也不知道为何。可能是VIT在小数据集上效果不明显、亦或者是我的模型结构出现问题、再或者模型参数设计的不合理,这都需要后续调整。

  想到一些可能的原因外加锻炼自己的编码能力,基于CNN+VIT解决flowers102花分类问题,这是比较独立的完成这个模型,但是很显然,结果依旧很不友好,权当学习。

本周疑问:

  1、模型训练效果不好,如何解决?

下周学习安排:

  1. 论文学习(Action Alignment Network);
  2. 实践学习。
posted @ 2022-11-18 17:23  飀飀  阅读(53)  评论(0编辑  收藏  举报