
红框训练超参数,蓝框训练参数
1.用循环网络作为控制器生成神经网络A和概率P
①神经网络的结构和连通性,通常由可变长度的字符串指定。因此,可以使用循环网络——控制器来生成这样的字符串(网络A)。
解释:
神经网络由众多神经元以及它们之间的连接构成,结构上涵盖神经元的层数、每层神经元的数量、不同层之间的连接方式等,连通性则涉及神经元之间连接的权重等信息。为了以一种计算机能够处理和理解的方式来表示这些结构和连通性,需要采用特定的编码方式。
在神经架构搜索等相关领域,常使用可变长度的字符串来指定神经网络的结构和连通性。字符串中的每个字符或字符组合可以代表特定的结构或连接信息。比如,某一字符可能表示添加一层全连接层,另一组字符可能表示该层神经元的数量等。由于不同的神经网络结构复杂程度不同,所需要的描述信息也有多有少,所以这种字符串的长度是可变的。
循环网络(如循环神经网络 RNN、长短期记忆网络 LSTM 等)具有对序列数据进行处理和记忆的能力。在这种情境下,将循环网络作为控制器,它可以根据已有的信息或之前生成的部分字符串,逐步生成完整的用于指定神经网络结构和连通性的可变长度字符串。控制器通过不断地学习和决策,决定在字符串中添加哪些字符或字符组合,以构建出符合要求的神经网络结构描述。
②RNN生成概率P
RNN通过一系列预测来生成神经网络架构的超参数。这些预测可以看作是设计子网络架构的一系列动作a,对于生成的架构 A,其概率P是通过控制器 RNN 的预测得到的。
- 基于 RNN 的预测:以生成仅包含卷积层的前馈神经网络为例,控制器 RNN 会按顺序生成架构的超参数,如滤波器高度、宽度、步长、滤波器数量等。每次预测由一个 softmax 分类器完成,softmax 分类器会输出每个可能超参数取值的概率分布,从而确定每个超参数的取值概率。
- 生成架构的概率计算:将生成架构过程中每个动作(即每个超参数的预测)的概率相乘,就可以得到生成整个架构 A 的概率P。假设控制器预测架构 A 时,确定滤波器高度的概率为(P_1,滤波器宽度的概率为P_2,以此类推,那么生成架构 A 的概率
,其中n为架构超参数的数量。
2.训练控制器选择的架构A,并用验证集得到准确度R
在给定网络架构(即超参数已确定)的基础上,调整网络内部神经元之间连接的权重等参数。通过训练这些参数,使得子网络能够在相应任务上达到一定的准确率 R,从而评估该架构 A 的性能表现。
3.使用概率P和准确度R更新控制器参数的梯度,调整后续架构生成的概率分布
使得控制器在后续生成架构时,更有可能产生那些在训练中表现良好(如具有较高准确率)的架构。
随着训练过程的推进和多次梯度更新,控制器的架构生成能力会逐步提升。它能够从之前生成的架构及其性能表现中学习,不断积累经验,生成越来越好的架构。
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· 阿里最新开源QwQ-32B,效果媲美deepseek-r1满血版,部署成本又又又降低了!
· Manus重磅发布:全球首款通用AI代理技术深度解析与实战指南
· 开源Multi-agent AI智能体框架aevatar.ai,欢迎大家贡献代码
· 被坑几百块钱后,我竟然真的恢复了删除的微信聊天记录!
· AI技术革命,工作效率10个最佳AI工具