본문 바로가기

분류 전체보기264

Mistral 7B (2023) 논문 리뷰 Mistral 7B의 논문 이름은 Mistral 7B다. (링크) 저자는 Albert Q. Jiang, Alexandre Sablayrolles, Arthur Mensch, Chris Bamford, Devendra Singh Chaplot, Diego de las Casas, Florian Bressand, Gianna Lengyel, Guillaume Lample, Lucile Saulnier, Lélio Renard Lavaud, Marie-Anne Lachaux, Pierre Stock, Teven Le Scao, Thibaut Lavril, Thomas Wang, Timothée Lacroix, William El Sayed다. Github: Mistral common (링크)Mistral C.. 2025. 4. 27.
GPT 4 (2023) 리뷰 GPT4 부터는 아예 논문이 아니라 Technical Report라고 나온다. (링크) OpenAI가 아니라 ClosedAI라고 해야하는게 아닌가 싶긴 하지만 내용을 간략하게 살펴본다. 다들 알다시피 첫 보고서는 2023년에 나왔지만 지금은 6번째로 리비전이 되어서 v6다. 아래의 Table 1과 Figure 4에서 GPT-3.5와 비교하면서 시작한다. Academic and professional exams에서 GPT 3.5에 비해서 GPT-4는 월등하게 좋은 성능을 보여준다. 사실 ChatGPT가 아주 처음에 나왔을 때 GPT-3.5를 무료로 써봤을 때 생각보다 별로여서 실망했던 기억이 난다. GPT-4 이후에 점차 쓸만해졌다고 느꼈던 기억이 난다. GPT-4는 Table 3에 나와있듯.. 2025. 4. 26.
LLaVA (2023) 논문 리뷰 LLaVA 모델의 논문 제목은 Visual Instruction Tuning이다. (링크) 저자는 Haotian Liu, Chunyuan Li, Qingyang Wu, Yong Jae Lee다. Github: 링크 논문 제목 Visual instruction tuning 그대로 시각적 내용에 대한 지시를 토대로 파인 튜닝한 모델이다. AbstractMachine-generated instruction following data를 활용한 LLM의 instruction tuning은 새로운 태스크에 대한 zero-shot 능력의 향상을 보여왔다. 하지만 multimodal 분야에서는 덜 탐구되었는데 본 논문에서는 처음으로 language only GPT-4를 사용해서 multimodal language-i.. 2025. 4. 26.
BLIP (2022) 논문 리뷰 BLIP 모델의 논문 제목은 BLIP: Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and Generation이다. (링크) 저자는 Junnan Li, Dongxu Li, Caiming Xiong, Steven Hoi다. AbstractVision-Language Pre-training (VLP)는 vision-language tasks에서 성능의 향상을 보여왔다. 하지만 현존하는 많은 방법들은 understanding-based tasks 혹은 generation-based tasks 어느 한쪽에서만 향상을 보이고 있다. 뿐만 아니라 대부분의 성능 향상은 웹에서 가져온 noisy image-tex.. 2025. 4. 26.
LayoutLM v3 (2022) 논문 리뷰 LayoutLM v3 모델의 논문 제목은 LayoutLMv3: Pre-training for Document AI with Unified Text and Image Masking이다. (링크)저자는 Yupan Huang, Tengchao Lv, Lei Cui, Yutong Lu, Furu Wei 다.이 논문은 LayoutLM v3으로 세 번째 버젼의 논문이다.Abstract Self-supervised learning은 문서 AI 분야에서 놀라운 성과를 거두었다. 대부분의 멀티모달 pre-trained models는 masekd language modeling의 objecttive를 기반으로 bidirectional representation을 text modality에 대해서 학습했으나 image mo.. 2025. 4. 25.
FPN (2017) 논문 리뷰 FPN 모델의 논문 이름은 Feature Pyramid Networks for Object Detection다. (링크) 저자는 Tsung-Yi Lin, Piotr Dollár, Ross Girshick, Kaiming He, Bharath Hariharan, Serge Belongie다. 굉장히 유명한 컴퓨터 비전 분야의 논문 중 하나로 다소 늦게 리뷰를 한다. 최근에 리뷰했던 LayoutLM v2나 YOLO v4에서도 사용한 네트워크 구조로 알고 있다. AbstractTop-down 방식의 lateral connections 측면의 연결을 통해서 모든 스케일의 high-level semantic features를 활용한다.이러한 구조를 Feature Pyramid Network (FPN)이라고 부.. 2025. 4. 25.