ViT Vision Transformer(2021) 논문 리뷰
ViT (Vision Transformer) 모델의 논문 이름은 An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale다. (링크) 저자는 Alexey Dosovitskiy, Lucas Beyer, Alexander Kolesnikov, Dirk Weissenborn, Xiaohua Zhai, Thomas Unterthiner, Mostafa Dehghani, Matthias Minderer, Georg Heigold, Sylvain Gelly, Jakob Uszkoreit, Neil Houlsby다. NLP에서 쓰던 Transformer를 컴퓨터 비전 분야에 성공적으로 적용한 모델이 나온 논문이다. Abstract트랜스포머..
2025. 4. 8.