使用强化学习进行通过循环网络进行神经架构搜索

红框训练超参数,蓝框训练参数

1.用循环网络作为控制器生成神经网络A和概率P

①神经网络的结构和连通性,通常由可变长度的字符串指定。因此,可以使用循环网络——控制器来生成这样的字符串(网络A)。
解释:

  • 神经网络的结构和连通性
神经网络由众多神经元以及它们之间的连接构成,结构上涵盖神经元的层数、每层神经元的数量、不同层之间的连接方式等,连通性则涉及神经元之间连接的权重等信息。为了以一种计算机能够处理和理解的方式来表示这些结构和连通性,需要采用特定的编码方式。
  • 可变长度字符串
在神经架构搜索等相关领域,常使用可变长度的字符串来指定神经网络的结构和连通性。字符串中的每个字符或字符组合可以代表特定的结构或连接信息。比如,某一字符可能表示添加一层全连接层,另一组字符可能表示该层神经元的数量等。由于不同的神经网络结构复杂程度不同,所需要的描述信息也有多有少,所以这种字符串的长度是可变的。
  • 循环网络 - 控制器的作用

循环网络(如循环神经网络 RNN、长短期记忆网络 LSTM 等)具有对序列数据进行处理和记忆的能力。在这种情境下,将循环网络作为控制器,它可以根据已有的信息或之前生成的部分字符串,逐步生成完整的用于指定神经网络结构和连通性的可变长度字符串。控制器通过不断地学习和决策,决定在字符串中添加哪些字符或字符组合,以构建出符合要求的神经网络结构描述。

 ②RNN生成概率P
RNN通过一系列预测来生成神经网络架构的超参数。这些预测可以看作是设计子网络架构的一系列动作a,对于生成的架构 A,其概率P是通过控制器 RNN 的预测得到的。
  • 基于 RNN 的预测:以生成仅包含卷积层的前馈神经网络为例,控制器 RNN 会按顺序生成架构的超参数,如滤波器高度、宽度、步长、滤波器数量等。每次预测由一个 softmax 分类器完成,softmax 分类器会输出每个可能超参数取值的概率分布,从而确定每个超参数的取值概率。
  • 生成架构的概率计算:将生成架构过程中每个动作(即每个超参数的预测)的概率相乘,就可以得到生成整个架构 A 的概率P。假设控制器预测架构 A 时,确定滤波器高度的概率为(P_1,滤波器宽度的概率为P_2,以此类推,那么生成架构 A 的概率,其中n为架构超参数的数量。

2.训练控制器选择的架构A,并用验证集得到准确度R

在给定网络架构(即超参数已确定)的基础上,调整网络内部神经元之间连接的权重等参数。通过训练这些参数,使得子网络能够在相应任务上达到一定的准确率 R,从而评估该架构 A 的性能表现。

3.使用概率P和准确度R更新控制器参数的梯度,调整后续架构生成的概率分布

使得控制器在后续生成架构时,更有可能产生那些在训练中表现良好(如具有较高准确率)的架构。
随着训练过程的推进和多次梯度更新,控制器的架构生成能力会逐步提升。它能够从之前生成的架构及其性能表现中学习,不断积累经验,生成越来越好的架构。

 

posted @   魔魔胡胡胡萝卜  阅读(6)  评论(0编辑  收藏  举报
相关博文:
阅读排行:
· 阿里最新开源QwQ-32B,效果媲美deepseek-r1满血版,部署成本又又又降低了!
· Manus重磅发布:全球首款通用AI代理技术深度解析与实战指南
· 开源Multi-agent AI智能体框架aevatar.ai,欢迎大家贡献代码
· 被坑几百块钱后,我竟然真的恢复了删除的微信聊天记录!
· AI技术革命,工作效率10个最佳AI工具
点击右上角即可分享
微信分享提示