ACCELERATING NEURAL ARCHITECTURE SEARCH USING PERFORMANCE PREDICTION阅读笔记
ACCELERATING NEURAL ARCHITECTURE SEARCH USING PERFORMANCE PREDICTION
17年的paper,作者说一个标准的常见的回归模型,使用基于网络结构的特征,就可以预测非充分训练的模型的最终表现。作者说他们的模型可以比主流的BO,更加高效,更加简单,更快训练。作者还说,他们的模型可以预测视觉分类和语言模型的最终表现,能够高效的预测变化很大的网络结构的表现,甚至在模型类别之间也可以进行泛化。
作者还说,使用这些模型,作者对超参优化和meta-modeling提出了一个early stop方法,这个方法加速6倍。作者还说他们的early stop可以无缝对接到RL的arch 选择算法或者是bandit based 的搜索方法。
两个贡献点
- predictor
- early-stop
我们的方法使用从模型架构,训练超参数和学习曲线的早期时间序列测量中得出的简单特征对学习曲线轨迹进行参数化。我们使用这些功能来训练一组频繁回归模型,该模型使用来自图像分类和语言建模领域的,经过全面训练的曲线的小型训练集,预测部分经过训练的神经网络配置的最终验证准确性。
作者的方法
对learning curve的建模
作者目标是对一个网络配置\(x\in \mathcal{X} \subset X\) ,根据之前的表现观察\(y(t)\), 在epoch\(T\in \Z^+\)的validation acc \(y_T\) 进行建模。对每一个网络configuration \(x\),训练了\(T\)个epoch,作者记录了一个val acc 的time-series \(y(T) = y_1, y_2,...,y_T\)。作者训练了一个种群,包含\(n\)个configuration,得到了一个set
和17年的paper非常相似。
作者使用网络结构的配置\(x\)的一系列特征,\(u_x\)和从\(\mathcal{S}\)中采样的时间序列精度子集\(y(\tau) = (y_t)_{t = 1,2,...,\tau}\) 其中\(1 \leq \tau < T\), 来训练regression 模型去估计\(y_T\)。我们的模型使用一系列的特征去估计\(y_T\), 这些特征为\(x_f = \{u_x, y(t)_{1-\tau}\}\)}.为了清晰起见,作者train \(T-1\)个回归模型,其中每一个successive model使用多余一个点的时间序列验证集合。作者说到,这种sequential regression model(SRM)的使用,会更加computationaly和更加精确,相对于训练一个bayesian model而言。
features
作者使用的features包括了time-series,architecture parameters和hyperparameters
- TS: 包含了validation acc, $y(t){1-\tau} = (y_t) $, 其中\(1 \leq \tau < T\),和val acc的一阶differences(微分) \(y_t^` = (y_t - y_{t-1})\), 以及二阶微分\(y_t^" = (y_t^" - y_{t-1}^")\)
- AP :包含了weights的number和layers的number
- HP:包含了训练网络的所有超参,lr或者是lr decay(appendix)
数据集和训
作者说对不同的数据集有不同的网络结构,
举个栗子,比如在tinyimagnet上,作者sample500个网络结构,其中depth,和filter size以及block的输出的数目。超参的haul,作者使用不同的lr,step size和weight decay。
prediction performance
作者在regression model的选择的时候说,对于所有的实验,作者训练他们的SRM(sequential regression models)在100个随机采样的网络configuration上。
关于作者的对于frequentist regression模型的描述包含了ordinary least squares(OLS), random forest,以及\(\nu\)-support vector machine regressions(\(\nu-\)SVR)。
posted on 2021-05-26 14:08 YongjieShi 阅读(95) 评论(0) 编辑 收藏 举报