多维矩阵的理解

从书的组成理解多维矩阵

在 DL(深度学习) 中,不可避免涉及到多维矩阵形式,尤其是对于 CNN (卷积神经网络)来讲更为普遍。

简单形式

一维的向量形式,只用一个数表示,如 shape=(n,)

二维的矩阵形式,n 行 m 列表示为 shape=(n,m)

多维形式

当维度超过 2 维,进入到高维层次时,对矩阵中数据的理解更加不易。对于 CV (计算机视觉) 中输入的对象——图片,一般至少为 3 维形式,即包含 R, G, B 三个通道,每个通道就是一个二维矩阵,对应图片的高度和宽度。如 shape=(3, 4, 2)

import tensorflow as tf
a = tf.random.normal([3, 4, 2])

对于其他多维形式,以 YOLOv3 为例:

输入维度为:(m, 416, 416, 3)
最终对应的输出 (m, 13, 13, 3, 85), (m, 26, 26, 3, 85), (m, 52, 52, 3, 85), m 代表图片的个数。

  • 每个输出包含 3 种 anchor box,即 13×13,26×26,52×52.
  • 每个框对应 85 个值,其中前 5 个值对应是物体的概率,框中心点的坐标值,框的高度和宽度
  • 最后 80 个值对应具体属于哪一个物体(共80种分类),用 One Hot 编码形式表示 。

(13, 13, 3, 85) 维度则可以借助书的组成来理解

即 13 本书,每本书有 13 页,每页纸内容是 3 行 85 列

posted @ 2023-09-22 20:56  若澧风  阅读(197)  评论(0编辑  收藏  举报