본문 바로가기
Computer Vision/CV - Data & Eval

CutMix (2019) 논문 리뷰

by 아르카눔 2025. 4. 8.

CutMix 기법의 논문의 제목은 CutMix: Regularization Strategy to Train Strong Classifiers with Localizable Features이다. (링크)

 

저자는 Sangdoo Yun, Dongyoon Han, Seong Joon Oh, Sanghyuk Chun, Junsuk Choe, Youngjoon Yoo다. 

 

Github : PyTorch 링크

 

CutMix는 image classification 문제에 대한 data augmentation 논문이다.

 

 

Abstract

Regional dropout 전략은 conv net classifier의 성능을 향상시키기 위해서 도입되었다. less discriminative (식별하기 어려운) 파트에 모델이 집중하도록 만드는 전략이 유효함이 밝혀졌다. 이는 네트워크가 더 나은 일반화와 위치 측정 (localization)을 수행하게 만든다. 반면에 현재 방법은 검은 픽셀이나 랜덤 노이즈를 추가하여 regional dropout을 수행하는데 이는 information loss와 학습 과정에서의 비효율성을 야기한다. 따라서 본 논문에서는 CutMix 증강 (augmentation) 기법을 소개한다. 트레이닝 데이터의 패치 (patch)를 잘라서 붙이고 groudtruth 라벨 역시 비례적으로 섞는다.

이 증강 방법을 통해서 CIFAR, ImageNet classification과 ImageNEt weakly-supervised localization 태스크들에서 다른 증강 기법들에 대한 SOTA를 달성했다. 또한 증강 기법을 사용한 pre-trained 모델이 Pascal detection과 MS-COCO에 대해서도 일관적인 성능을 보여주는데 이는 input corruptions나 out-of-distribution 문제에 robust함을 의미한다.

 

3. CutMix

CutMix 방법은 Table 1에 나와있는데 굉장히 직관적이다.

 

 

초록에 나와있는 설명 그대로 이미지를 일부 잘라서 서로 혼합하고 라벨을 패치의 사이즈에 비례하여 설정한다.

 

Mixup은 Talbe 1에 나와있듯이 두 이미지를 크롭하지 않고 그대로 겹친 데이터다. 

 

 

3.1. Algorithm

 

학습 이미지는 $x \in {\mathbb{R}}^{W \times H \times C}$로 라벨은 $y$로 나타낸다.  

CutMix의 목표는 새로운 학습 이미지 샘플인 $(\tilde{x}, \tilde{y})$의 생성이다.

이는 $(x_A, y_A)$와 $(x_B, y_B)$의 조합으로 생성된다.

 

$ \tilde{x}  = M \odot x_A + (1 - M) \odot x_B$ 

 

$ \tilde{y}  = \lambda x_A + (1 - \lambda ) y_B$ 

 

이며 $M \in \{0, 1\}^{W \times H} $는 binary mask로 두 이미지에서의 drop out과 fill을 표시한다.

1인 경우 binary mask filled다.

$\odot$은 elemetn-wise product다.  

 

$\lambda$는 Beta($\alpha, \alpha$) 분포에서 샘플링되는데 저자들은 $ \alpha $로 설정하였다.

이는 곧 Unif(0, 1)에서 람다를 뽑는다는 뜻과 같다.  

 

Binary mask $M$을 샘플링하기 위해서 우선 boundg box $B = (r_x, r_y, r_w, r_y)$를 뽑는다.  

이는 $x_A$와 $x_B$에 대한 cropping regions 즉 잘라내는 영역을 나타낸다.  

영역 (region) $B$는 $x_A$에서 제거되고, $x_B$에서 해당 영역만큼 잘라서 이미지 A에 덧붙이게 된다.

 

박스의 좌표는 다음과 같이 샘플링 된다.

 

$r_x \sim Unif(0, W), r_w = W \sqrt{1 - \lambda}$

 

$r_y \sim Unif(0, h), r_h = H \sqrt{1 - \lambda}$

 

잘린 비율 (cropped ratio) $\frac{r_w r_h}{W H} = 1 - \lambda$만큼 마스킹한다.

 

Comparison

 

 

CutMix에서는 원래 이미지의 전체 영역, regional dropout, mixed image & label을 모두 사용한다.

 

4. Experiments

 

 

Epoch에 따른 top-1 error on CIFAR-100와 ImageNet 분류 문제를 Figure 2와 같다.  

약 150 epochs 이후 수렴하는 듯 보인다.

 

 

Table 3과 4에서는 이미지 분류에 대해서 CutMix를 적용한 성능을 보여주는데 베스트임을 알 수 있다.

 

 

Table 9에서는 CUB200-2011과 ImageNet의 Weakly supervised object localization에 대해서 최상의 성능임을 보여준다.

 

 

Figure 4는 Weakly supervised object localization의 실제 결과를 보여준다. 

 

 

 

Table 10에서는 pre-trained 모델의 transfer learning 성능을 보여준다.

ImageNet 분류 문제에 대해서 학습하고 object detection과 image captioning에 대해서 어떤 성능을 보이는지 알려준다.

CutMix를 활용한 방법이 가장 좋았음을 알 수 있다.

 

Robustness

 

Adversarial samples, occluded samples 그리고 in-between class samples에 대해서 얼마나 robust (강건)한지를 보여준다.

 

Adverarial samples (적대적 샘플):

인간은 보기 어려운 노이즈 (noise)나 섭동 (perturbation)이 있는 데이터를 의미한다.

즉 인간은 쉽게 분류하지만 기계는 잘 분류하지 못하는 샘플이다. 

 

Occluded samples (가려진 샘플):

이미지 중앙, 이미지의 경계 등등이 다른 물체나 배경 등에 의해서 가려진 샘플

 

In-between class samples:

개와 고양이 사이의 혼합된 이미지

 

 

빨간색으로 표시된 CutMix에 대체로 낮은 Top-1 error를 보여줌을 알 수 있다.

 

 

 

Out-of-disbtribution (OOD)

 

OOD란 학습에 없던 전혀 새로운 데이터에 대한 문제를 의미한다.

이를 uncertainty라고 보통 부른다.

 

 

 

 

Table 12를 보면 CutMix가 가장 좋은 성능임을 알 수 있다.

 

 

종합하면 CutMix를 통한 학습은 미지의 신규 데이터에 대해 강건한 성능을 보인다고 볼 수 있다.

 

'Computer Vision > CV - Data & Eval' 카테고리의 다른 글

Computer Vision Data Augmentation  (0) 2025.04.17