DeepLab V3 (2017) 논문 리뷰

DeepLab V3 모델의 논문 제목은 Rethinking Atrous Convolution for Semantic Image Segmentation이다. (링크)

저자는 Liang-Chieh Chen, George Papandreou, Florian Schroff, Hartwig Adam다.

Atrous Convolution은 기존에 DeepLab v1 리뷰(링크)와 DeepLab v2 리뷰(링크)에서 살펴보았으므로 간략하게 핵심 위주로 살펴본다.

DeepLab V3에서는 atrous convolution의 구조를 다양한 방법으로 적용하고 체계적으로 비교하는 논문이다.

Figure 1이 Atrous conv를 보여준다.

Going Deeper with Atrous Convolution

Figure 3 (a)를 보면 Atrous가 없으면 점차 작은 해상도의 피쳐 맵으로 이미지 피쳐가 요약됨을 알 수 있다.

Table 1을 보면 output_stride가 작을 수록 mIOU 성능이 더 높은걸 알 수 있다.

Figure 3 (b)에 나온 바와 같이 최선의 output_stride를 16으로 설정했다.

Figure 2의 (c)처럼 여러개의 atrous conv를 적용하는 방법도 적용한다.

block 4 부터 7까지 서로 다른 rates를 사용하는 방법을 제시한다. Multi_Grid = (r1, r2, r3)로 설정한다.

Figure 5에서와 같이 Atrous Spatial Pyramid Pooling을 Block 4의 다음에 수행하는 방법과도 비교한다.

그리고 Image Pooling은 GAP (global average pooling)으로 모델의 마지막 피쳐 맵에 적용한다.

최종적으로 1 x 1 conv with 256 filters와 Batch Normalization (BN)을 거친 다음 biliearly upsampling로 원하는 spatial dimension으로 만든다.

ASPP의 (a)와 image-level features (b)를 concat하고 1 x 1 conv (256 filters with BN)을 거쳐서 최종 1 x 1 conv를 거쳐서 final logits를 생성한다.

Multi-Grid, ASPP, Image Pooling을 비교한 표가 위 Table 4, 5, 6에 나와있다.

Table 5를 보면 Multi-Grid, ASPP, Image Pooling을 적용한 모델이 가장 성능이 좋은걸 알고 있다.

Table 6를 보면 Multi-scale inputs, left-right lipped inputs를 추가하고, MS-COCO에 사전학습된 경우 가장 성능이 좋았다.

Table 7을 보면 DeepLabV2-CR, ResNet-38_MS_COCO, PSPNet 등 다양한 모델과 비교해서 DeepLabv3가 SOTA를 달성했음을 확인할 수 있다.

DeepLab V3 뿐만 아니라 DeepLab V3+도 있다는걸 확인했다.

나중에 한 번 살펴봐야겠다.

References:

https://velog.io/@skhim520/DeepLab-v3

HRNet (2019) 논문 리뷰 (0)	2025.04.28
FCOS: Fully Convolutional One-Stage Object Detection (0)	2025.04.28
Inception V3 (2015) 논문 리뷰 (0)	2025.04.28
DETR (2020) 논문 리뷰 (0)	2025.04.27
YOLO v4 (2020) 논문 리뷰 (0)	2025.04.27

공부 기록하는 블로그