该论文在CIFAR-10,CIFAR-100 [27]和ImageNet [6]上进行了评估。 CIFAR-10包含10个类别的50K训练图像和10K测试图像。 CIFAR-100与CIFAR-10类似,但有100个类别。 ImageNet包含128万个训练图像和50000个测试图像以及1000个类别。 论文在这三个数据集上进行了数据扩充,具体地,在CIFAR-10和CIFAR-100上,随机裁剪成32×32的块(patch),在每个边界填充4个像素,并且还应用了随机水平翻转。 在ImageNet上,我们使用经典方法随机裁剪大小,随机更改亮度/对比度/饱和度,并随机进行水平翻转以进行数据增强。 在评估过程中,论文将图像大小调整为256×256,并在中央裁剪了224×224的块。

1 设置

1.1 搜索设置

We search the number of channels over {0.3, 0.4, 0.5, 0.6, 0.7, 0.8, 0.9, 1.0} of the original number in the unpruned network。 我们在每个卷积阶段搜索深度,同时设置$I=2$ ($I$表示候选集个数),为了减少搜索过程中的GPU内存成本,我们根据修剪算法的FLOP设置R,并将$λ_{cost}$设置为2。此外,通过SGD优化权重,通过Adam评估结构参数。 对于权重,我们设置学习率从0.1开始,并通过余弦调度器(cosine scheduler)降低学习率[34]。 对于结构参数,我们使用0.001的恒定学习率和0.001的权重衰减值。 在CIFAR-10和CIFAR-100上,我们训练模型的单个batch 大小为256,共600个epochs。在ImageNet上,我们训练ResNets的单个batch 大小为256,共120个epochs [17]。容忍度$t$始终设置为5%。 等式3中的 $\tau$ 从10线性衰减到0.1。

1.2 训练

对于CIFAR实验,我们使用动量为0.9,权重衰减值为0.0005的SGD。 我们将每个模型训练300个epoch,设置学习率从0.1开始,并通过余弦调度器降低学习率[34]。 我们使用大小为256的batch和2个GPU。 在CIFAR上使用KD时,我们设置$\lambda$为0.9,温度T为4。 对于ImageNet上的ResNet模型,我们遵循大多数CIFAR的超参数,但是设置权重衰减为0.0001。 我们使用4个GPU,120个epoch训练模型,batch大小为256。在ImageNet上使用KD时,在ImageNet上将$\lambda$设置为0.5,将T设置为4。

2 实验分析

在本节中,我们评估了TAS的不同方面。 我们还将其与不同的搜索算法和知识迁移方法进行比较,以证明TAS的有效性。