본문 바로가기
Computer Vision

YOLOX (2021) 논문 리뷰

by 아르카눔 2025. 6. 23.

YOLOX의 논문 이름은 YOLOX: Exceeding YOLO Series in 2021다. (링크)

 

저자들은 Zheng Ge, Songtao Liu, Feng Wang, Zeming Li, Jian Sun다.

 

Github: 링크

 

YOLOX는 YOLOv3에다가 ultraltics-YOLOv3에서 제시한 data augmentation 방법들을 포함해서 decoupled head 등 여러가지 변형을 가한 모델이다.

 

아래 Figure 2에 전체적인 YOLOX의 아키텍처가 나와있다.

 

기존의 YOLOv3와의 차이점은 다음과 같다. 

 

우선 random horizontal flip, color jitter 방법만을 데이터 증강으로 사용한다.

그리고 class와 object에 대해서 BCE loss를 사용하고, bounding box regression에 대해서 IoU loss를 사용한다. 

 

1. Decoupled head

 

최종 Head에서 Classification, Bounding Box Regression, Object를 한꺼번에 예측하는게 아니라, 각각에 대해서 브랜치를 할당하여 개별적으로 예측하도록 만든다. 

 

 

2. Strong data augmentation

Ultraltics-YOLOv3에서 사용한 Mosaic와 MixUp data augmentation을 적용하는데 이를 마지막 15 epochs에서만 적용한다.

 

 

3. Anchor-free

YOLOv4, YOLOv5, 그리고 YOLOv3은 모두 anchor-based 모델이다. 저자들은 YOLOv3에서 개별 location에서 3개씩 하던 predictions를 1로 줄이고, grid의 left-top의 좌표와 height, width의 4가지 값들을 직접적으로 예측한다. Grid의 center 위치는 객체의 positive sample과 사전에 정의된 스케일의 범위에서 설정했다. 

 

4. Multiple positives

기존에는 center location에 하나의 positive sample을 선택했는데, 저자들은 FCOS에서 사용한 center sampling을 통해서 3x3 크기의 center area를 positives로 설정한다. 

 

 

5. SimOTA

 

기존의 OTA 대신 SimOTA라는 dynamic top-k 전략을 소개한다. ground truth $g_i$와 prediction $p_j$에 대해서 cost $c_{ij}$를 다음과 같이 정의한다.

 

$c_{ij} = L_{ij}^{cls} + \lambda L_{ij}^{reg}$

 

 

Results

 

Table 2는 Ablation study 결과인데 decoupled head, strong augmentation, anchor-free, multi positives, simOTA를 적용하면 vanilla YOLOv3와 Ultraltics-YOLOv3에 비해서 더 좋은 성능임을 알 수 있다. 

 

 

 

 

 

 

 

Figure 1과 Table 6에서는 YOLOX가 YOLOv3, v4, v5, PP-YOLOv2, EfficientDet 보다 좋은 성능임을 보여준다. 

 

 

 

'Computer Vision' 카테고리의 다른 글

YOLOv7 (2022) 논문 리뷰  (1) 2025.06.24
PP-YOLOE (2022) 논문 리뷰  (0) 2025.06.23
MnasNet (2018) 논문 리뷰  (0) 2025.05.03
YOLOv6 (2022) 논문 리뷰  (0) 2025.05.03
SegFormer (2021) 논문 리뷰  (0) 2025.05.03