본문 바로가기

deeplearning25

SPPNet(2014) PyTorch Implementation SPPNet을 Pytorch를 활용하여 구현하고자 한다. https://arsetstudium.tistory.com/35에서 공부한 내용을 토대로 구현보면 아래와 같다. SPPNet은 R-CNN처럼 Spatial Pyramid Pooling을 제외하고 CNN 구조 자체는 기존과 동일하므로 이는 생략한다. SPP는 max pool 또는 average pool이며 중요한 사항은 바로 window와 stride의 사이즈다. 개별 SPP를 우선 구현한다. import torch import torch.nn as nn import math class PyramidPoolCell(nn.Module): # a is the size of feature map # n is the bin size of pyramid po.. 2024. 4. 12.
SPPNet (2014) 논문 리뷰 SPPNet의 논문 이름은 Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition이다. 저자는 Kaiming He, Xiangyu Zhang, Shaoqing Ren, and Jian Sun이다. (링크)R-CNN은 object detection 데이터 셋인 PASCAL VOC dataset에 대해 성공적인 결과를 달성한 모델이다. Object detection 딥러닝 분야에서 가장 먼저 공부하는 모델이기도 하다.  Abstract현존하는 deep cnn은 224 x 224 같은 고정된 사이즈의 이미지를 필요로 한다. 이는 인공적인 상황이며 임의의 사이즈의 이미지에 대한 recognition 정확도를 떨어뜨린다. 본 논문.. 2024. 4. 9.
R-CNN (2014) PyTorch Implementation R-CNN을 Pytorch를 활용하여 구현하고자 한다. https://arsetstudium.tistory.com/33에서 공부한 내용을 토대로 구현보면 아래와 같다. 이때, R-CNN의 CNN 구조는 AlexNet과 같으므로 생략하고 기존의 classification과 다른 부분에 집중하고자 한다. 바로 bounding box의 생성 부분인데 우선 ROI (Region of Interest)라는 개념도 알아야 한다. ROI는 이름 그대로 어떤 이미지에서 관심이 가는 특정 대상에 대한 영역을 의미한다. Object detection에서 ROI 지정은 bounding box로 하며, 아래의 Figure 1를 예시로 알아보자. 우선 interest는 새다. 그리고 그 새에 대한 영역인 ROI를 빨간색 bou.. 2024. 4. 8.
R-CNN (2014) 논문 리뷰 R-CNN의 논문 이름은 Rich feature hierarchies for accurate object detection and semantic segmentation이다. 저자는 Ross Girshick, Jeff Donahue, Trevor Darrell, Jitendra Malik다. (링크) R-CNN은 object detection 데이터 셋인 PASCAL VOC dataset에 대해 성공적인 결과를 달성한 모델이다. Object detection 딥러닝 분야에서 가장 먼저 공부하는 모델이기도 하다. PASCAL VOC는 Pattern Analysis, Statistical Modeling and Computational Learning Visual Object Classes의 약자로 옥스포드.. 2024. 4. 4.
GoogLeNet = Inception v1 (2014) PyTorch Implementation GoogLeNet = Inception v1을 Pytorch를 활용하여 구현하고자 한다.https://arsetstudium.tistory.com/31에서 공부한 내용을 토대로 구현보면 아래와 같다. Inception Block 전체 GoogLeNet 모델을 구축하기에 앞서서 내부의 inception block을 먼저 구현하고자 한다. 맨 처음에는 쉽게 구축하기 위해서, 추상적으로 arguments를 짜기 보다는 구체적인 숫자를 이용해서 구현한다.우선 가장 첫 번째 inception block인 inception 3a를 대상으로 짜본다.자세한 파라미터의 설정은 아래의 Table 1을 참고하면 된다. Inception 3a의 input size는 28 x 28 x 192다. 이때 192는 채널의 개수.. 2024. 4. 3.
GoogLeNet = Inception v1 (2014) 논문 리뷰 GoogLeNet은 VGGNet와 마찬가지로 2014년 ImageNet Large Scale Visual Recognition Challenge (ILSVRC)에서 성공적인 결과를 달성한 모델이다. 또 다른 이름으로는 Inception v1 model이라고도 한다. (링크)GoogLeNet의 논문 이름은 Going Deeper with Convolutions이라는 심플한 이름이다. 저자는 굉장히 많은데 Christian Szegedy, Wei Liu, Yangqing Jia, 그리고 그 외 6인이다.   AbstractILSVRC 2014의 classification과 detection을 해결하기 위해서 Inception이라는 deep convolutional neural network를 제안한다. 가장.. 2024. 4. 3.