본문 바로가기

multimodal13

LLaVA (2023) 논문 리뷰 LLaVA 모델의 논문 제목은 Visual Instruction Tuning이다. (링크) 저자는 Haotian Liu, Chunyuan Li, Qingyang Wu, Yong Jae Lee다. Github: 링크 논문 제목 Visual instruction tuning 그대로 시각적 내용에 대한 지시를 토대로 파인 튜닝한 모델이다. AbstractMachine-generated instruction following data를 활용한 LLM의 instruction tuning은 새로운 태스크에 대한 zero-shot 능력의 향상을 보여왔다. 하지만 multimodal 분야에서는 덜 탐구되었는데 본 논문에서는 처음으로 language only GPT-4를 사용해서 multimodal language-i.. 2025. 4. 26.
BLIP (2022) 논문 리뷰 BLIP 모델의 논문 제목은 BLIP: Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and Generation이다. (링크) 저자는 Junnan Li, Dongxu Li, Caiming Xiong, Steven Hoi다. AbstractVision-Language Pre-training (VLP)는 vision-language tasks에서 성능의 향상을 보여왔다. 하지만 현존하는 많은 방법들은 understanding-based tasks 혹은 generation-based tasks 어느 한쪽에서만 향상을 보이고 있다. 뿐만 아니라 대부분의 성능 향상은 웹에서 가져온 noisy image-tex.. 2025. 4. 26.
LayoutLM v3 (2022) 논문 리뷰 LayoutLM v3 모델의 논문 제목은 LayoutLMv3: Pre-training for Document AI with Unified Text and Image Masking이다. (링크)저자는 Yupan Huang, Tengchao Lv, Lei Cui, Yutong Lu, Furu Wei 다.이 논문은 LayoutLM v3으로 세 번째 버젼의 논문이다.Abstract Self-supervised learning은 문서 AI 분야에서 놀라운 성과를 거두었다. 대부분의 멀티모달 pre-trained models는 masekd language modeling의 objecttive를 기반으로 bidirectional representation을 text modality에 대해서 학습했으나 image mo.. 2025. 4. 25.
LayoutLM v2 (2020) 논문 리뷰 LayoutLM v2 모델의 논문 제목은 LayoutLMv2: Multi-modal Pre-training for Visually-Rich Document Understanding이다. (링크) 저자는 Yang Xu, Yiheng Xu, Tengchao Lv, Lei Cui, Furu Wei, Guoxin Wang, Yijuan Lu, Dinei Florencio, Cha Zhang, Wanxiang Che, Min Zhang, Lidong Zhou 다.이 논문은 LayoutLM v2으로 두 번째 버젼의 논문이다. 1. Introduction 저자들은 스캔된 문서에 대한 분석을 Visually-rich Document Understanding (VrDU)라고 명명했다. 본 논문의 요약은 다음과 같다. .. 2025. 4. 24.
LayoutLM v1 (2019) 논문 리뷰 LayoutLM 모델의 논문 제목은 LayoutLM: Pre-training of Text and Layout for Document Image Understanding이다. (링크) 저자는 Yiheng Xu, Minghao Li, Lei Cui, Shaohan Huang, Furu Wei, Ming Zhou다. Layout LM 역시 CLIP처럼 문서와 관련된 처리가 산업적 수요가 있다는걸 보고 찾다가 알게된 논문이다. Huggingface의 multimodal models (링크)에서 보면 LayoutLM은 v3까지 나와있다고 한다. 이 논문은 LayoutLM v1으로 가장 처음 나온 논문이다. Abstract기존에는 레이아웃이나 문서의 스타일 대신에 텍스트 레벨의 manipulation 조작에 집.. 2025. 4. 16.
CLIP (2021) 논문 리뷰 CLIP 모델의 논문 제목은 Learning Transferable Visual Models From Natural Language Supervision이다. (링크) 저자는 Alec Radford, Jong Wook Kim, Chris Hallacy, Aditya Ramesh, Gabriel Goh, Sandhini Agarwal, Girish Sastry, Amanda Askell, Pamela Mishkin, Jack Clark, Gretchen Krueger, Ilya Sutskever다.  AbstractPre-training 후에 자연어 Natural Language를 이용해서 학습된 시각적인 컨셉을 인용한다. 이를 zero-shot transfer learning의 측면에서 downstrea.. 2025. 4. 11.