MnasNet (2018) 논문 리뷰

Computer Vision

MnasNet (2018) 논문 리뷰

아르카눔 2025. 5. 3. 21:03

MnasNet 모델의 논문 이름은 MnasNet: Platform-Aware Neural Architecture Search for Mobile다. (링크)

저자는 Mingxing Tan, Bo Chen, Ruoming Pang, Vijay Vasudevan, Mark Sandler, Andrew Howard, Quoc V. Le다.

Abstract

Mobile phone에서 모델을 실행해서 실제 세계에서의 inference latency 추론 응답 지연을 측정한다. 또한 factorized hierarchical search space라는 새로운 방법을 제시하여 레이어의 다양성을 도모한다.

4. Mobile Neural Architecture Search

4.1. Factorized Hierarchical Search Space

CNN을 unique blocks로 fatorize하여 블록별로 다르게 operations와 connections를 찾는다. 이를 두고 factorized hierarchical search space라고 한다. 따라서 블록 마다 서로 다른 레이어 구조를 가질 수 있게 한다. 아래 Figure 4가 이에 대한 구체적인 그림이다.

Block 마다 주어지는 sub search space는 다음의 선택지를 지닌다. 이때 $i$ Block에 대한 sub search space는 아래와 같다.

Convolutional ops, ConvOp: regular conv (conv), depthwise conv (dconv), mobile inverted bottleneck conv
Convolutional kernel size, Kernelsize: 3x3, 5x5
Squeeze-and-excitation ratio, SERatio: 0, 0.25
Skip ops, SkipOp: pooling, identity residual, or no skip
Output filter size $F_i$
Number of layers per block $N_i$

MobileNetV2를 레퍼런스로 삼아서 레이어의 수는 MobleNetV 보다 {0, +1, -1}의 한도 내에서, 레이어 별 필터 사이즈는

relative size로 {0.75, 1.0, 1.25}를 기준으로 탐색한다.

총 B 개의 블록, 평균 N 개의 레이어, sub search space의 크기가 S 일때, 총 search space의 크기는 $S^B$이고, flat per-layer search space의 크기는 $S^{B * N}$이다. 일반적으로 S = 432, B = 5, N = 3이기에 search space는 ${10}^{13}$의 크기를 지니며, per-layer search space의 크기는 ${10}^{39}$다.

4.2. Search Algorithm

NASNet Learning transferable architectures for scalable image recognition 논문에 나온 바와 같이 search space에 있는 개별 CNN 모델을 토큰들의 리스트로 매핑한다. 이 토큰들은 액션들의 시퀀스 $a_{1:T}$에 의해 결정되며 강화학습의 에이전트가 결정의 주체다. 파라미터는 $\theta$로 표기한다.

목적 함수 J = $E_{P(a_{1:T} ; \theta)} [ R(m) ]$ 로, expected reward의 극대화다.

$m$은 action $a_{1:T}$에 의해 결정된 sampled model이다.

Reward model $R(m)$은 아래 (2)로 정의된다.

Figure 1에 구체적인 search algorithm이 나와있는데, controller 모델은 RNN이다. Trainer는 model accuracy를 도출하며, 휴대폰으로 latency를 계산한다.

6. Results

ImageNet classification과 COCO object detection 결과를 통해서 성능을 검증한다.

Figure 2와 Table 1에서는 ImageNet classification을 보여주는데, NASNet-A에 비해서 더 빠른 추론 응답지연 속도를 지니면서 더 좋은 정확도를 달성했음을 보여준다.

Table 3은 COCO object detection 성능을 보여주는데 MobileNet V1이 비해서는 더 빠르고 정확한 성능을 보여주며, V2에 기반한 SSDLite와는 거의 유사한 성능임을 알 수 있다.

7. Ablation Study and Discussion

Figure 6에서는 Multi-Obejective Search의 결과를 보여주는데, 위쪽의 2개의 그래프는 3000개의 샘플된 모델들에 대한 Proxy task accuracy를 보여준다. 이때 Proxy task는 CIFAR-10에 대한 classification이다. 이를 통해서 최적의 모델을 찾는다. 결과를 보면 Pareto 곡선을 보여준다. 아래의 2개의 그래프는 추론 응답 지연 시간의 히스토그램을 보여준다. Latency에 대한 weight factor $w$를 정할 때 $\alpha, \beta$ 값의 설정에 따라서 어떤게 더 좋은지를 보여준다.

MnasNet에서는 single-obj이 아니라 Multi-obj을 사용하는게 Latency과 Top-1 Acc 양쪽 측면에서 더 좋다는 실험 결과를 Table 5가 보여준다. Single-obj는 accuracy만을 reward로 학습했을 때의 결과다.

Figure 7에서는 가장 빠른 모델인 MnasNet-A1을, Table 6에서는 A1과 동일한 커널 사이즈만을 사용했을 때의 비교 실험 결과를 보여준다.