第三周学习进度汇报

第三周

本周学习进度汇报：

理论学习了解了Transformer在CV方向的应用（Vision Transformer模型）；
理论学习总结损失函数&优化器；
实践学习基于Vision Transformer模型实现MNIST手写数据集图像分类；
实践学习基于Vision Transformer模型实现5类花朵图像分类；
实践学习基于CNN + ViT 实现flowers-102图像分类；
Vision Transformer模型学习笔记
Vision Transformer代码（Pytorch版本）
基于ViT训练花分类数据集（5分类）
损失函数&优化器总结

本周学习总结：

　　上周学习完Transformer基本理论后，对于Transformer如何应用在图像识别上不明所以。在好奇心的驱动下，去了解了Transformer是如何应用在图像上的。

　　在了解之前，或许有个疑问。在CV领域，CNN一直是主流模型，且效果比较好，那么为什么会再提出一个模型来涉足CV领域呢？换句话说，CNN有什么不足，而Transformer在CV上又有什么优点。查阅资料后了解到，CNN存在局部感受野较局限的问题，为了获得全局信息，需要多层堆叠，但是随着层数增大信息量会衰竭，因此提取的特征注意力集中在某些区域。Transformer存在自注意力机制，能有效获得全局信息，并且多头可以将其映射到多个空间，使模型表达能力变强。根据Transformer模型思想，科研人员提出了Vision Transformer模型，令人惊奇的是，该模型在CV上表现的十分优秀。

　　那么VIT是如何实现的呢？VIT提出了一个方法，就是将整个图像化整为零，从一张图片转化成多个相同大小的子图片（patch）。具体如：Vision Transformer模型学习笔记。

　　在学习完VIT模型后，同时拿一个小例子实现了VIT模型，但效果很差，直到现在也不知道为何。可能是VIT在小数据集上效果不明显、亦或者是我的模型结构出现问题、再或者模型参数设计的不合理，这都需要后续调整。

　　想到一些可能的原因外加锻炼自己的编码能力，基于CNN+VIT解决flowers102花分类问题，这是比较独立的完成这个模型，但是很显然，结果依旧很不友好，权当学习。

本周疑问：

　　1、模型训练效果不好，如何解决？

下周学习安排：

论文学习（Action Alignment Network）；
实践学习。

posted @ 2022-11-18 17:23 飀飀阅读(53) 评论(0) 编辑收藏举报

会员力量，点亮园子希望

刷新页面返回顶部

第三周 学习进度汇报

第三周

本周学习进度汇报：

本周学习总结：

本周疑问：

下周学习安排：

公告

第三周学习进度汇报