FPN 모델의 논문 이름은 Feature Pyramid Networks for Object Detection다. (링크)
저자는 Tsung-Yi Lin, Piotr Dollár, Ross Girshick, Kaiming He, Bharath Hariharan, Serge Belongie다.
굉장히 유명한 컴퓨터 비전 분야의 논문 중 하나로 다소 늦게 리뷰를 한다.
최근에 리뷰했던 LayoutLM v2나 YOLO v4에서도 사용한 네트워크 구조로 알고 있다.
Abstract
Top-down 방식의 lateral connections 측면의 연결을 통해서 모든 스케일의 high-level semantic features를 활용한다.
이러한 구조를 Feature Pyramid Network (FPN)이라고 부르며 basic Faster R-CNN의 구조를 활용해어 COCO 데이터의 detection 벤치마크에서 SOTA를 달성했다.
전체적인 FPN의 구조는 아래의 Figure 1에 나와있다.
측면 연결이라는 말이 단번에 이해되는 그림이다.
3. Feature Pyramid Networks
ResNet의 기본 구조를 사용해서 bottom-up pathway와 top-down pathway, 그리고 lateral connections를 순서대로 설명한다.
위 figure
Bottom-up pathway
특정 레이어들은 같은 크기의 output maps를 내는데 이를 same network stage에 있다고 정의한다.
이 방법은 가장 깊은 레이어가 가장 strongest features 강력한 피쳐를 가진다는 자연스러운 성질을 사용한다.
ResNet을 따라서 마지막 residual block의 마지막 outputs를 다음과 같이 정의하는데 각가 conv2, conv3, conv4 그리고 conv5의 output이다. {$ C_2, C_3, C_4, C_5 $}. 각각의 strides는 {4, 8, 16, 32}다. 너무 큰 메모리 때문에 conv1의 단계는 제외했다.
Top-down pathway and lateral connections
Top-down pathway에서는 spatially coarser features를 upsampling해서 higher resolution features를 hallucinate 거짓으로 생성한다. 하지만 이는 semantically stronger라는 특징을 지닌다.
이렇게 만들어진 features를 bottom-up pathway에서 나온 features와 lateral connection의 방법으로 함께 사용해서 성능을 향상시킨다.
아래 Figure 3에 이 과정이 나와있다.
Upsampling을 수행할 때 factor는 2다. (단순하게 하기 위해서 nearest neighbor upsample을 한다.)
Bottom-up map에 1x1 conv를 적용해서 top-down map에 채널의 수를 맞춘다.
위 두 피쳐를 합치고 이를 mergered map이라고 부른다.
각각의 merged map에 3x3 conv를 수행해서 final feature map 최종 피쳐 맵을 생성한다.
{$ C_2, C_3, C_4, C_5 $}에 대응하는 최종 피쳐 맵을 {$ P_2, P_3, P_4, P_5 $}로 표기한다.
피라미드의 모든 레벨이 traditional featurized image pyramid에서 shared classifiers / regressors를 가지기 때문에 feature dimension (numbers of channels, d)를 고정한다. 여기서는 d = 256으로 설정했다.
FPN을 RPN에 사용할 수도, Fast R-CNN에 사용할 수도 있다.
5. Experiments on Object Detection
총 80개의 카테고리를 가진 COCO detection 데이터에 대해서 테스트를 수행했다.
ResNet-50과 ResNet-101의 사전학습된 모델을 사용했다.
AttractionNet, Faster R-CNN, Multipath, ION 등과 비교했을 때 FPN이 SOTA를 달성했음을 알 수 있다.
References:
https://herbwood.tistory.com/18
'Computer Vision' 카테고리의 다른 글
DETR (2020) 논문 리뷰 (0) | 2025.04.27 |
---|---|
YOLO v4 (2020) 논문 리뷰 (0) | 2025.04.27 |
CRAFT (2019) 논문 리뷰 (1) | 2025.04.15 |
Visualizing and Understanding Convolutional Networks (2013) 논문 리뷰 (0) | 2025.04.11 |
ViT Vision Transformer(2021) 논문 리뷰 (1) | 2025.04.08 |