본문 바로가기

Computer Vision58

BEiT (2022) 논문 리뷰 BEiT 논문의 제목은 BEiT: BERT Pre-Training of Image Transformers다. (링크) 저자는 Hangbo Bao, Li Dong, Songhao Piao, Furu Wei다. Github: 링크 Abstract본 논문에서는 self-supervised vision representation model인 BEiT (Bidirectional Encoder representation from Image Transformers 를 제시한다. 자연어 분야의 BERT를 따라서, 저자들은 masked image modeling task를 활용해서 vision Transformers를 pretrain한다. 구체적으로, 각각의 이미지는 pre-training에서 2가지 시점을 가진다... 2025. 5. 3.
MLP-Mixer (2021) 논문 리뷰 MLPMixer의 논문 제목은 MLP-Mixer: An all-MLP Architecture for Vision다. (링크) 저자들은 Ilya Tolstikhin, Neil Houlsby, Alexander Kolesnikov, Lucas Beyer, Xiaohua Zhai, Thomas Unterthiner, Jessica Yung, Andreas Steiner, Daniel Keysers, Jakob Uszkoreit, Mario Lucic, Alexey Dosovitskiy다. Github: 링크 이름에서 알 수 있듯이 컨볼루션이나 트랜스포머의 어텐션 구조가 아니라 단순한 MLP 만으로 좋은 성능을 달성함을 보인 논문이다. AbstractCNN은 컴퓨터 비전 분야에서의 핵심 모델이다. 최근에는 .. 2025. 5. 3.
NASNet (2017) 논문 리뷰 NASNet 모델의 논문 이름은 Learning Transferable Architectures for Scalable Image Recognition다. (링크) 저자는 Barret Zoph, Vijay Vasudevan, Jonathon Shlens, Quoc V. Le다. MobileNet v3랑 EfficientNet v2에서 소개되었길래 살펴보게 된 논문으로 최적의 CNN 구조를 탐색하는 방법론이다. Abstract CNN을 이용한 이미지 분류 모델의 개발은 상당한 아키텍처 엔지 상당한 아키텍처 엔지니어링이 필요한 경우가 많다. 본 논문에서는 관심 데이터셋에 대해서 모델의 아키텍처를 직접 학습하는 방법을 연구한다. 데이터셋이 클 경우 비용이 많이 들기 때문에, 작은 데이터셋에서 아키텍처 구성.. 2025. 4. 30.
EfficientNetV2 (2021) 논문 리뷰 EfficientNetV2의 논문 이름은 EfficientNetV2: Smaller Models and Faster Training다. (링크)저자는 Mingxing Tan, Quoc V. Le다. 기존의 EfficientNet을 개선한 모델로 NASNet, MobileNet의 구조를 응용했다. Figure 1에 나와있듯이 ImageNet 2012 데이터에 대한 이미지 분류에서 기존의 EfficientNet이나 ViT보다 훨씬 더 작은 파라미터와 학습 시간으로 높은 정확도를 달성했음을 알 수 있다. 3. EfficientNetV2 Architecture Design Depthwise convolutions are slow in early layers but effective in later stag.. 2025. 4. 28.
MobileNet V3 (2019) 논문 리뷰 MobileNet V3의 논문 이름은 Searching for MobileNetV3다. (링크)저자는 Andrew Howard, Mark Sandler, Grace Chu, Liang-Chieh Chen, Bo Chen, Mingxing Tan, Weijun Wang, Yukun Zhu, Ruoming Pang, Vijay Vasudevan, Quoc V. Le, Hartwig Adam다. 역시나 기존 MobileNet V1, V2와 마찬가지로 경량화 모델이다.MobileNetV3를 통해서 처음 알게된 모델들인 NasNet, MNasNet, NetAdapt도 나중에 한 번 봐야겠다. Abstract다음 세대의 MobileNets을 제안한다. MobileNetV3는 핸드폰의 CPU에 맞게 특화된 모델로.. 2025. 4. 28.
Xception (2016) 논문 리뷰 Xception의 논문 이름은 Xception: Deep Learning with Depthwise Separable Convolutions다. (링크)저자는 François Chollet다. Inception 구조를 조금 더 수정한 모델이다. 따라서 간단하게만 짚고 넘어간다. 그리고 해당 논문에서 Depthwise convolution도 중요하게 다뤄서 이를 포함한다. Figure 1과 2는 전통적인 Inception 모델이다. Figure 3와 4에서는 1 x 1을 극단적으로 변경한 모델이다. 이는 곧 depthwise separable convolution과 동일한 연산이다. 아래 references에서 가져온 그림을 이용해서 설명하고자 한다. 일반적인 pointwise conv는 위 그.. 2025. 4. 28.