본문 바로가기

Multimodal11

BLIP-2 (2023) 논문 리뷰 BLIP-2의 논문 제목은 BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models다. (링크) 저자는 Junnan Li, Dongxu Li, Silvio Savarese, Steven Hoi다. 기존의 BLIP은 ViT와 BERT, 이미지와 텍스트 모델을 둘 다 학습시켰다면 BLIP-2에서는 이미지와 텍스트를 연결하는 Q-Former만을 학습한다는 점에서 차이점이 있다. Abstract본 논문에서는 pre-trained frozen 이미지 인코더와 frozen LLM을 사용하여 vision-language 시각-언어 사전 학습을 부트스트랩하는 일반적이고 효율적인 사전 학습 .. 2025. 5. 10.
Flamingo (2022) 논문 리뷰 Flamingo 모델의 논문 이름은 Flamingo: a Visual Language Model for Few-Shot Learning다. (링크) 저자는 Jean-Baptiste Alayrac, Jeff Donahue, Pauline Luc, Antoine Miech, Iain Barr, Yana Hasson, Karel Lenc, Arthur Mensch, Katie Millican, Malcolm Reynolds, Roman Ring, Eliza Rutherford, Serkan Cabi, Tengda Han, Zhitao Gong, Sina Samangooei, Marianne Monteiro, Jacob Menick, Sebastian Borgeaud, Andrew Brock, Aida Nema.. 2025. 5. 5.
Donut (2022) 논문 리뷰 Donut 논문의 제목은 OCR-free Document Understanding Transformer다. (링크) 저자는 Geewook Kim, Teakgyu Hong, Moonbin Yim, Jeongyeon Nam, Jinyoung Park, Jinyeong Yim, Wonseok Hwang, Sangdoo Yun, Dongyoon Han, Seunghyun Park다. Abstract현재의 Visual Document Understanding (VDU) 방법들은 OCR 엔진으로 텍스트를 읽어온 다음 그 결과를 이해하는 태스크에 집중하고 있다. OCR 기반 접근법은 좋은 성과를 보장하지만 다음의 문제점이 있다. 1) OCR를 사용하면 계산량이 많이 필요하며, 2) 문서의 종류나 언어에 따라서 OC.. 2025. 5. 3.
DALL-E (2021) 논문 리뷰 DALL-E 모델의 논문 이름은 Zero-Shot Text-to-Image Generation다. (링크) 저자는 Aditya Ramesh, Mikhail Pavlov, Gabriel Goh, Scott Gray, Chelsea Voss, Alec Radford, Mark Chen, Ilya Sutskever다. Github: 링크 Figure 2에서는 DALL-E 모델의 zero-shot의 예시를 보여준다. 2. Method목적은 transformer을 학습해서 autoregressively 텍스트와 이미지 토큰을 단일한 데이터 흐름으로 모델링하는 것이다.하지만 픽셀을 그대로 사용하는 것은 고해상도일 경우 과도한 양의 메모리를 요구한다. 따라서 우선 픽셀들 사이의 short-range depen.. 2025. 5. 3.
LLaVA (2023) 논문 리뷰 LLaVA 모델의 논문 제목은 Visual Instruction Tuning이다. (링크) 저자는 Haotian Liu, Chunyuan Li, Qingyang Wu, Yong Jae Lee다. Github: 링크 논문 제목 Visual instruction tuning 그대로 시각적 내용에 대한 지시를 토대로 파인 튜닝한 모델이다. AbstractMachine-generated instruction following data를 활용한 LLM의 instruction tuning은 새로운 태스크에 대한 zero-shot 능력의 향상을 보여왔다. 하지만 multimodal 분야에서는 덜 탐구되었는데 본 논문에서는 처음으로 language only GPT-4를 사용해서 multimodal language-i.. 2025. 4. 26.
BLIP (2022) 논문 리뷰 BLIP 모델의 논문 제목은 BLIP: Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and Generation이다. (링크) 저자는 Junnan Li, Dongxu Li, Caiming Xiong, Steven Hoi다. AbstractVision-Language Pre-training (VLP)는 vision-language tasks에서 성능의 향상을 보여왔다. 하지만 현존하는 많은 방법들은 understanding-based tasks 혹은 generation-based tasks 어느 한쪽에서만 향상을 보이고 있다. 뿐만 아니라 대부분의 성능 향상은 웹에서 가져온 noisy image-tex.. 2025. 4. 26.