본문 바로가기

multimodal3

LayoutLM v1 (2019) 논문 리뷰 LayoutLM 모델의 논문 제목은 LayoutLM: Pre-training of Text and Layout for Document Image Understanding이다. (링크) 저자는 Yiheng Xu, Minghao Li, Lei Cui, Shaohan Huang, Furu Wei, Ming Zhou다. Layout LM 역시 CLIP처럼 문서와 관련된 처리가 산업적 수요가 있다는걸 보고 찾다가 알게된 논문이다. Huggingface의 multimodal models (링크)에서 보면 LayoutLM은 v3까지 나와있다고 한다. 이 논문은 LayoutLM v1으로 가장 처음 나온 논문이다. Abstract기존에는 레이아웃이나 문서의 스타일 대신에 텍스트 레벨의 manipulation 조작에 집.. 2025. 4. 16.
CLIP (2021) 논문 리뷰 CLIP 모델의 논문 제목은 Learning Transferable Visual Models From Natural Language Supervision이다. (링크) 저자는 Alec Radford, Jong Wook Kim, Chris Hallacy, Aditya Ramesh, Gabriel Goh, Sandhini Agarwal, Girish Sastry, Amanda Askell, Pamela Mishkin, Jack Clark, Gretchen Krueger, Ilya Sutskever다.  AbstractPre-training 후에 자연어 Natural Language를 이용해서 학습된 시각적인 컨셉을 인용한다. 이를 zero-shot transfer learning의 측면에서 downstrea.. 2025. 4. 11.
Show and Tell = Neural Image Caption (NIC) (2014) 모델 간단 리뷰 Neural Image Caption (NIC)는 2014년에 나온 논문으로 풀 네임은 Show and Tell: A Neural Image Caption Generator다. (링크) 이름에서 알 수 있듯이 이미지를 받으면 DNN (Deep Neural Network)를 통해서 캡션, 이미지에 대한 설명을 작성하게 된다. 저자는 Oriol Vinyals, Alexander Toshev, Samy Bengio, Dumitru Erhan이다. 해당 논문은 구조 상으로 큰 개선은 없었으나 Vision CNN과 NLP LSTM을 함께 사용하여,이미지 캡셔닝을 사용한 비교적 오래된 2014년 논문이라 점에서 간단하게 짚고 넘어가고 싶어서 포스팅한다.  모델 설명    Figure 1은 Show and Tell .. 2024. 4. 13.