机器学习——延后初始化

到目前为止,我们忽略了建立网络时需要做的以下这些事情:

  • 我们定义了网络架构,但没有指定输入维度。

  • 我们添加层时没有指定前一层的输出维度。

  • 我们在初始化参数时,甚至没有足够的信息来确定模型应该包含多少参数。

有些读者可能会对我们的代码能运行感到惊讶。 毕竟,深度学习框架无法判断网络的输入维度是什么。 这里的诀窍是框架的延后初始化(defers initialization), 即直到数据第一次通过模型传递时,框架才会动态地推断出每个层的大小。

在以后,当使用卷积神经网络时, 由于输入维度(即图像的分辨率)将影响每个后续层的维数, 有了该技术将更加方便。 现在我们在编写代码时无须知道维度是什么就可以设置参数, 这种能力可以大大简化定义和修改模型的任务。 接下来,我们将更深入地研究初始化机制。

 

 

总结

1. 输入维度:在定义网络架构时,可以不预先指定输入的数据维度,网络可以自适应地处理变长输入。

2. 前一层输出维度:添加新层时,不需要手动指定前一层的输出维度,网络会自动推断。

3. 初始化参数数目:定义网络时无需知道参数具体数目,网络在正式初始化时会自动计算需要的权重和偏置参数。

posted @ 2023-11-01 13:55  Yohoc  阅读(6)  评论(0编辑  收藏  举报