NASH：基于丰富网络态射和爬山算法的神经网络架构搜索 | ICLR 2018

论文提出NASH方法来进行神经网络结构搜索，核心思想与之前的EAS方法类似，使用网络态射来生成一系列效果一致且继承权重的复杂子网，本文的网络态射更丰富，而且仅需要简单的爬山算法辅助就可以完成搜索，耗时0.5GPU day 来源：晓飞的算法工程笔记公众号论文: Simple And Efficient Architecture Search for Convolutional Neural Net

晓飞的算法工程笔记

795人浏览 · 2020-06-15 14:11:15

晓飞的算法工程笔记 · 2020-06-15 14:11:15 发布

论文提出NASH方法来进行神经网络结构搜索，核心思想与之前的EAS方法类似，使用网络态射来生成一系列效果一致且继承权重的复杂子网，本文的网络态射更丰富，而且仅需要简单的爬山算法辅助就可以完成搜索，耗时0.5GPU day

来源：晓飞的算法工程笔记公众号

论文: Simple And Efficient Architecture Search for Convolutional Neural Networks

论文地址：https://arxiv.org/pdf/1711.04528.pdf

Introduction

论文目标在于大量减少网络搜索的计算量并保持结果的高性能，核心思想与EAS算法类似，主要贡献如下：

提供baseline方法，随机构造网络并配合SGDR进行训练，在CIFAR-10上能达到6%-7%的错误率，高于大部分NAS方法。
拓展了EAS在网络态射(network morphisms)上的研究，能够提供流行的网络构造block，比如skip connection和BN。
提出基于爬山算法的神经网络结构搜索NASH，该方法迭代地进行网络搜索，在每次迭代中，对当前网络使用一系列网络态射得到多个新网络，然后使用余弦退火进行快速优化，最终得到性能更好的新网络。在CIFAR-10上，NASH仅需要单卡12小时就可以达到baseline的准确率。

Network Morphism

$\mathcal{N}(\mathcal{X})$ 为 $\mathcal{X}\in \mathbb{R}^n$ 上的一系列网络，网络态射(network morphism)为映射 $\mathcal{N}(\mathcal{X}) \times \mathbb{R}^k \to \mathcal{N}(\mathcal{X}) \times \mathbb{R}^j$ ，从参数为 $w\in \mathbb{R}^k$ 的网络 $f^w \in \mathcal{N}(\mathcal{X})$ 转换为参数为 $\tilde{w} \in \mathbb{R}^j$ 的网络 $KaTeX parse error: Got function '\tilde' with no arguments as superscript at position 3: g^\̲t̲i̲l̲d̲e̲{w} \in \mathca…$ ，并且满足公式1，即对于相同的输入，网络的输出不变。

下面给出几种标准网络结构的网络态射例子：

Network morphism Type I

将 $f^w$ 进行公式2的替换， $\tilde{w}=(w_i, C, d)$ ，为了满足公式1，设定 $A = 1$ 和 $b = 0$ ，可用于添加全连接层。

另外一种复杂点的策略如公式3， $\tilde{w}=(w_i, C, d)$ ，设定 $C=A^{-1}$ 和 $d = - C b$ ，可用于表达BN层，其中 $A$ 和 $b$ 表示统计结构， $C$ 和 $d$ 为可学习的 $\gamma$ 和 $\beta$ 。

Network morphism Type II

假设 $f_i^{w_i}$ 可由任何函数 $h$ 表示，即 $f_i^{w_i}=Ah^{w_h}(x)+b$

则可以将 $f^w$ ， $w_i = (w_h, A, b)$ 配合任意函数 $\tilde{h}^{w_{\tilde{h}}}(x)$ 根据公式4替换为 $\tilde{f}^{\tilde{w}_i}$ ， $\tilde{w}=(w_i, w_{\tilde{h}}, \tilde{A})$ ，设定 $\tilde{A}=0$ 。这个态射可以表示为两种结构：

增加层宽度，将 $h (x)$ 想象为待拓宽的层，设定 $\tilde{h}=h$ 则可以增加两倍的层宽度。
concatenation型的skip connection，假设 $h (x)$ 本身就是一系列层操作 $h(x)=h_n(x) \circ \cdots \circ h_0(x)$ ，设定 $\tilde{h}(x)=x$ 来实现短路连接。

Network morphism Type III

任何幂等的函数 $f_i^{w_i}$ 都可以通过公式5进行替换，初始化 $\tilde{w}_i=w_i$ ，公式5在无权重的幂等函数上也成立，比如ReLU。

Network morphism Type IV

任何层 $f_i^{w_i}$ 都可以配合任意函数 $h$ 进行公式6的替换，初始化 $\lambda=1$ ，可用于结合任意函数，特别是非线性函数，也可以用于加入additive型的skip connection。
此外，不同的网络态射组合也可以产生新的态射，比如可以通过公式2、3和5在ReLU层后面插入"Conv-BatchNorm-Relu"的网络结构。