본문 바로가기
Computer Vision

EfficientNetV2 (2021) 논문 리뷰

by 아르카눔 2025. 4. 28.

EfficientNetV2의 논문 이름은 EfficientNetV2: Smaller Models and Faster Training다. (링크)

저자는 Mingxing Tan, Quoc V. Le다. 

 

기존의 EfficientNet을 개선한 모델로 NASNet, MobileNet의 구조를 응용했다.

 

 

Figure 1에 나와있듯이 ImageNet 2012 데이터에 대한 이미지 분류에서 기존의 EfficientNet이나 ViT보다 훨씬 더 작은 파라미터와 학습 시간으로 높은 정확도를 달성했음을 알 수 있다. 

 

3. EfficientNetV2 Architecture Design

 

Depthwise convolutions are slow in early layers but effective in later stages:

 

Depthwise conv는 더 적은 파라미터 숫자와 FLOPs를 가지므로 효율적이지만 최신 accelerators 가속기를 완전히 활용하지 못한다.

 

최근 Fused-MBConv (Accelerator-aware neural network design using automl)가 소개되어 모바일이나 서버 가속기를 활용할 수 있게 되었다. 이는 MBConv의 depthwise conv 3x3와 expansion conv 1x1을 대체한다. (MBConv는 MobileNetV2에서 소개된 네트워크 구조다. MBConv와 Fused MBConv는 아래 Figure 2에 그림으로 묘사되어 있다.)

 

저자들은 EfficientNet-B4를 기반으로 하여 MBConv를 서서히 Fused MBConv로 대체한다.

 

 

 

 

Equally scaling up every stage is sub-optimal:

 

또한 저자들은 모든 스테이지 마다 크기를 키우는게 최적이 아님을 발견했다. 

 

 

3.3. Training-Aware NAS and Scaling

 

최적의 조합을 찾기 위해서 training-aware NAS를 소개한다.

 

{MBConv, Fused-MBConv}, number of layers, kernel size {3x3, 5x5}, expansion ratio {1, 4, 6}의 네 가지를 가지고 설계한다. 

 

저자들은 1000개의 모델을 샘플링했으며 각각의 모델에 대해서 크기가 줄어든 이미지로 10 epochs 에포크씩 학습시킨다. 모델의 reward model 보상 모델은 다음과 같이 정의된다. Model accuracy A, the normalized training step time S, and the parameter size P 그리고 경험적으로 정의된 weights인 w = -0.07 and v = -0.05를 사용해서, simple weighted product인 A · $S^w$ · $P^v$를 보상으로 사용한다.

 

EfficientNetV2 Architecture:

 

EfficientNetV2의 구조는 다음의 Table 4와 같다.

 

 

EfficientNetV2는 다음의 특징을 지닌다.

 

(1) EfficientNetV2가 초기 레이어에서 MBConv와 새로 추가된 fused-MBConv를 모두 광범위하게 사용한다.

(2) EfficientNetV2는 MBConv에 대해 더 작은 expansion ratio 확장 비율을 선호하는데, 이는 확장 비율이 작을수록 메모리 액세스 오버헤드가 줄어드는 경향이 있기 때문이다.

(3) EfficientNetV2는 더 작은 3x3 커널 크기를 선호하지만, 더 작은 커널 크기로 인해 감소된 receptive fields를 보상하기 위해 더 많은 계층을 추가한다.

(4) 마지막으로 EfficientNetV2는 큰 매개변수 크기와 메모리 액세스 오버헤드로 인해 EfficientNet V1에서 사용한 마지막 stride-1 단계를 완전히 제거한다.

 

 

4. Progressive Learning

 

FixRes 외에도 많은 연구들이 학습 중에 이미지 크기를 동적으로 변경하지만 이는 종종 정확도의 저하를 유발한다.


본 연구에서는 정확도 저하가 불균형적인 정규화에서 기인한다고 가정한다.

 

다양한 이미지 크기로 학습할 때는 기존 연구처럼 고정된 정규화를 사용하는 대신, 이미지의 크기에 따라 정규화 강도를 조정해야 한다고 본다. 실제로, 대규모 모델은 overfitting 과적합을 방지하기 위해 더 강력한 정규화를 필요로 하는 것이 일반적이다. 예를 들어, EfficientNet-B7은 B0보다 더 큰 드롭아웃과 더 강력한 data augmentation 데이터 증강을 사용한다.

 

본 논문에서는 동일한 네트워크에서도 이미지 크기가 작을수록 네트워크 용량이 줄어들어 더 약한 정규화가 필요하며, 반대로 이미지 크기가 클수록 더 많은 연산을 수행해야 하므로 더 큰 용량이 필요하고, 따라서 과적합에 더 취약하다고 주장한다.


가설을 검증하기 위해, 검색 공간에서 샘플링한 모델을 다양한 이미지 크기와 데이터 증강(Table 5에 나온)을 사용하여 학습시켰다. 이미지 크기가 작을 때는 약한 증강을 적용했을 때 정확도가 가장 높았지만, 이미지 크기가 클 때는 강한 증강을 적용했을 때 더 좋은 성능을 보였다. 이러한 통찰을 통해 학습 과정에서 이미지 크기에 따라 정규화를 적응적으로 조정하여 점진적 학습 방식을 개선하는 데 기여했다.

 

 

 

4.2. Progressive Learning with adaptive Regularization

 

 

 

Figure 4는 improved progressive learning 개선된 점진적 학습의 과정을 나타낸다. 초기 학습 에포크에서는 더 작은 이미지와 약한 정규화로 네트워크를 학습시켜 네트워크가 간단한 표현을 쉽고 빠르게 학습할 수 있도록 유도한다. 그런 다음 이미지 크기를 점진적으로 늘리지만, 더 강력한 정규화를 추가하여 학습을 더욱 어렵게 만든다. 

 

이를 표현한 구체적인 수식과 알고리즘은 다음 Algorithm 1에서 보여준다.

 

 

Regularization 정규화 방법에는 여러가지가 있지만 편의상 본 논문에서는 Dropout, RandAugment, Mixup 만을 사용한다.

 

5. Main Results

ImageNet에 대한 주된 결과와 CIFAR-10, 100, Cars and Flowers에 대한 transfer learning의 결과를 설명한다.

 

 

 

 

 

 

 

 

EfficientNetV2가 좋은 성능을 달성했음을 확인할 수 있다. 

 

'Computer Vision' 카테고리의 다른 글

MobileNet V3 (2019) 논문 리뷰  (0) 2025.04.28
Xception (2016) 논문 리뷰  (0) 2025.04.28
Inception v4 (2016) 논문 리뷰  (0) 2025.04.28
MobileNet V2 (2018) 논문 리뷰  (0) 2025.04.28
Squeeze-and-Excitation (2018) 논문 리뷰  (0) 2025.04.28