본문 바로가기

multimodal13

BLIP-2 (2023) 논문 리뷰 BLIP-2의 논문 제목은 BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models다. (링크) 저자는 Junnan Li, Dongxu Li, Silvio Savarese, Steven Hoi다. 기존의 BLIP은 ViT와 BERT, 이미지와 텍스트 모델을 둘 다 학습시켰다면 BLIP-2에서는 이미지와 텍스트를 연결하는 Q-Former만을 학습한다는 점에서 차이점이 있다. Abstract본 논문에서는 pre-trained frozen 이미지 인코더와 frozen LLM을 사용하여 vision-language 시각-언어 사전 학습을 부트스트랩하는 일반적이고 효율적인 사전 학습 .. 2025. 5. 10.
LLM으로 테이블과 차트 생성 ChartLLama (논문 링크)와 LIDA (논문 링크)를 보면 파이썬 코드로 matplotlib를 통해서 생성하는 것을 확인할 수 있다. 올해 나온 ChartCoder라는 모델 (논문 링크)도 마찬가지로 테이블과 그림을 코드를 이용해서 그린다. ChartLLama논문: 링크Github: 링크 LIDA논문: 링크Github: 링크홈페이지: 링크 ChartCoder논문: 링크Github: 링크 실습한 코드는 본인의 Github (링크)에 업로드 했다. Table 생성 프롬프트 from langchain_openai import ChatOpenAIfrom langchain.prompts import PromptTemplate, ChatPromptTemplate # OpenAI LLM Wrappers .. 2025. 5. 8.
Flamingo (2022) 논문 리뷰 Flamingo 모델의 논문 이름은 Flamingo: a Visual Language Model for Few-Shot Learning다. (링크) 저자는 Jean-Baptiste Alayrac, Jeff Donahue, Pauline Luc, Antoine Miech, Iain Barr, Yana Hasson, Karel Lenc, Arthur Mensch, Katie Millican, Malcolm Reynolds, Roman Ring, Eliza Rutherford, Serkan Cabi, Tengda Han, Zhitao Gong, Sina Samangooei, Marianne Monteiro, Jacob Menick, Sebastian Borgeaud, Andrew Brock, Aida Nema.. 2025. 5. 5.
Donut (2022) 논문 리뷰 Donut 논문의 제목은 OCR-free Document Understanding Transformer다. (링크) 저자는 Geewook Kim, Teakgyu Hong, Moonbin Yim, Jeongyeon Nam, Jinyoung Park, Jinyeong Yim, Wonseok Hwang, Sangdoo Yun, Dongyoon Han, Seunghyun Park다. Abstract현재의 Visual Document Understanding (VDU) 방법들은 OCR 엔진으로 텍스트를 읽어온 다음 그 결과를 이해하는 태스크에 집중하고 있다. OCR 기반 접근법은 좋은 성과를 보장하지만 다음의 문제점이 있다. 1) OCR를 사용하면 계산량이 많이 필요하며, 2) 문서의 종류나 언어에 따라서 OC.. 2025. 5. 3.
DALL-E (2021) 논문 리뷰 DALL-E 모델의 논문 이름은 Zero-Shot Text-to-Image Generation다. (링크) 저자는 Aditya Ramesh, Mikhail Pavlov, Gabriel Goh, Scott Gray, Chelsea Voss, Alec Radford, Mark Chen, Ilya Sutskever다. Github: 링크 Figure 2에서는 DALL-E 모델의 zero-shot의 예시를 보여준다. 2. Method목적은 transformer을 학습해서 autoregressively 텍스트와 이미지 토큰을 단일한 데이터 흐름으로 모델링하는 것이다.하지만 픽셀을 그대로 사용하는 것은 고해상도일 경우 과도한 양의 메모리를 요구한다. 따라서 우선 픽셀들 사이의 short-range depen.. 2025. 5. 3.
금융 PDF에서 Figure와 Table 추출하기 RAG를 수행할 때 PDF, docx, hwp 등 다양한 데이터를 읽어와야할 수 있다. ChatInstruct 논문을 리뷰 (링크)하면서 보니 Figure 자체를 이미지화해서 학습하는걸 알 수 있다. 이런 개념이면 LLaVA와 같은 로컬 VLLM을 사용하거나 multimodal LLM을 사용해서 이미지를 처리하는걸 생각할 수 있다. 이에 대해서 찾다보니 역시 다른 사람들이 해놓은게 있어서 참조하고자 한다. 특히 금융 분야에서 Figure와 Table을 모두 쓰고 있고 관련된 pdf 자료도 구하기 쉽기 때문에 이를 선택했다. QQQ와 SPYETF 들에 대한 pdf 문서들로 부터 그림과 표를 제대로 추출할 수 있는지 실습하고자 한다. QQQ는 나스닥을, SPY는 S&P500을추종하는 ETF들이다. 사용 .. 2025. 5. 2.