Computer Vision

PP-YOLOE (2022) 논문 리뷰

아르카눔 2025. 6. 23. 21:23

PP-YOLOE의 논문 제목은 PP-YOLOE: An evolved version of YOLO다. (링크)

 

저자들은 Shangliang Xu, Xinxin Wang, Wenyu Lv, Qinyao Chang, Cheng Cui, Kaipeng Deng, Guanzhong Wang, Qingqing Dang, Shengyu Wei, Yuning Du, Baohua Lai다. 

 

Github: 링크

 

PP-YOLOE는 PP-YOLO v2의 개선된 버젼이다.

 

전반적인 구조는 아래 Figure 2와 같다. 

 

PP-YOLOE의 백본 구조는 cross stage dense connection을 사용한 CSPNet의 개선된 버젼인 CSPRepResNet이다. 

 

그리고 neck에서는 Path Aggregation Network (PAN)을 사용하고 head는 Efficient Task-aligned Head (ET-head)를 지닌다.

 

 

 

RepResBlock와 CSPRepResStage 구조는 위 Figure 3에 나와있다. 

 

RepResBlock에서 1x1 conv는 학습에서는 사용되지만 추론에서는 사용되지 않는다.

 

중간에 Effective Squeeze and Extraction (ESE) 레이어를 이용해서 채널 어텐션을 수행한다. 

 

 

Task Alignment Learning (TAL)

 

YOLOX에서 제시한 SimOTA를 개선하고자 TOOD 논문에서 제시한 TAL 방법을 적용한다. 

 

Efficient Task-aligned Head (ET-head)

 

YOLOX의 decoupled head는 좋은 교훈을 주지만 classification과 localization이 독립적으로 작동하여 task specific learning에 부적합할 수도 있다. 따라서 TOOD 논문에서 제시한 내용을 수정해서 사용한다. 기존의 어텐션 레이어 대신 ESE를 사용한다. Regression 브랜치의 alignment를 distribution focal loss (DFL) 레이어로 대체한다. Classification에서는 varifocal loss (VFL)을 적용한다. 그리고 GIoU loss도 추가하여 학습한다. 

 

Experiments

 

Table 2를 보면 PP-YOLOv2를 베이스로하여, Anchor-free를 적용하면 성능이 약간 감소하고 CSPRepResNet, TAL, ET-head를 적용하면 성능이 향상됨을 알 수 있다.

 

 

YOLO v4, v5, PP-YOLO v1, v2, X, 그리고 EfficientDet과 비교해서 좋은 성능을 거두었다.