多维矩阵的理解
从书的组成理解多维矩阵
在 DL(深度学习) 中,不可避免涉及到多维矩阵形式,尤其是对于 CNN (卷积神经网络)来讲更为普遍。
简单形式
一维的向量形式,只用一个数表示,如 shape=(n,)
二维的矩阵形式,n 行 m 列表示为 shape=(n,m)
多维形式
当维度超过 2 维,进入到高维层次时,对矩阵中数据的理解更加不易。对于 CV (计算机视觉) 中输入的对象——图片,一般至少为 3 维形式,即包含 R, G, B 三个通道,每个通道就是一个二维矩阵,对应图片的高度和宽度。如 shape=(3, 4, 2)
import tensorflow as tf
a = tf.random.normal([3, 4, 2])

对于其他多维形式,以 YOLOv3 为例:
输入维度为:(m, 416, 416, 3)
最终对应的输出 (m, 13, 13, 3, 85), (m, 26, 26, 3, 85), (m, 52, 52, 3, 85), m 代表图片的个数。
- 每个输出包含 3 种 anchor box,即 13×13,26×26,52×52.
- 每个框对应 85 个值,其中前 5 个值对应是物体的概率,框中心点的坐标值,框的高度和宽度
- 最后 80 个值对应具体属于哪一个物体(共80种分类),用 One Hot 编码形式表示 。
(13, 13, 3, 85) 维度则可以借助书的组成来理解
即 13 本书,每本书有 13 页,每页纸内容是 3 行 85 列
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· 全程不用写代码,我用AI程序员写了一个飞机大战
· DeepSeek 开源周回顾「GitHub 热点速览」
· MongoDB 8.0这个新功能碉堡了,比商业数据库还牛
· 记一次.NET内存居高不下排查解决与启示
· 白话解读 Dapr 1.15:你的「微服务管家」又秀新绝活了