본문 바로가기

nlp69

GPT 3 (2020) 논문 리뷰 GPT-3의 논문 이름은 Language Models are Few-Shot Learners다. (링크) 저자는 Tom B. Brown, Benjamin Mann, Nick Ryder, Melanie Subbiah, Jared Kaplan, Prafulla Dhariwal, Arvind Neelakantan, Pranav Shyam, Girish Sastry, Amanda Askell, Sandhini Agarwal, Ariel Herbert-Voss, Gretchen Krueger, Tom Henighan, Rewon Child, Aditya Ramesh, Daniel M. Ziegler, Jeffrey Wu, Clemens Winter, Christopher Hesse, Mark Chen, Eric .. 2025. 4. 9.
GLU variants (2020) 논문 리뷰 GLU variants가 나온 의 논문 이름은 GLU Variants Improve Transformer다. (링크) 저자는 Noam Shazeer다. GLU는 Gated Linear Units의 약자다. AbstractGLU, Gated Linear Units은 두 개의 linear projections의 component-wise product로 구성된다. 여기서는 다양한 GLU의 variants를 탐구한다. ReLU와 GELU 보다 좋은 성능임을 보인다. Introduction Transformer 베이스의 모델들의 내부의 Position-wise Feed-Forward Networks (FFN)에서 activation 함수들이 쓰인다. T5에서는 bias가 없는 버젼이다. ReLU는 $.. 2025. 4. 9.
MQA (Multi-Query Attention) (2019) 논문 리뷰 MQA (Multi-Query Attention)의 논문 이름은 Fast Transformer Decoding: One Write-Head is All You Need다. (링크) 저자는 Noam Shazeer다.  MQA는 여러가지 Head들에 대해서 Keys와 Values를 공유함으로써 메모리에 불러오는 비용을 줄인다.  AbstractLarge sized Keys와 Values를 지속적으로 load함에 있어서 memory-bandwidth 비용이 많이 들고 추론에 있어서 느려진다.이를 해결하기 위해서 multi-query attention을 제안한다. 서로 다른 heads에 대해서 keys와 values를 sharing한다.  원본 논문에서는 Dot Product Attention, Multi-he.. 2025. 4. 9.
GPT 2 (2019) 논문 리뷰 GPT2의 논문 이름은 Language Models are Unsupervised Multitask Learners다. (링크) 저자는 Alec Radford, Jeffrey Wu, Rewon Child, David Luan, Dario Amodei, Ilya Sutskever다.  Unsupervised pre-train 이후 fine-tuning이 아닌 pre-train 만으로 충분히 좋은 성능을 낼 수 있는 가능성을 보여준 논문이다.  AbstractQuestion answering, machine translation, reading comprehension, 그리고 summarizaiton은 대표적인 supervised learning으로 학습되는 개별적인 태스크들이다. 저자들은 명박한 (exp.. 2025. 4. 9.
Sentence-BERT (2019) 논문 리뷰 Sentence-BERT 혹은 SBERT 모델이 나온 논문 이름은 Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks다. (링크) 저자는 Nils Reimers, Iryna Gurevych다.  요즘은 document나 sentence embedding을 구할 때 API로 OpenAI의 embeddings를 많이 사용하겠지만, 예전에는 문장 레벨로 embedding을 도출할 때 많이 쓰던 알고리즘이 SBERT라서 공부했던 기억이 난다.  AbstractBERT과 RoBERTa는 sentence-pair regression tasks; semantic textual similarity (STS)와 같은 태스크에서 SOTA를 달성했다. 하지만 두 .. 2025. 4. 9.
Small Language Models: Survey, Measurements, and Insights Small Language Models: Survey, Measurements, and Insights - Zhenyan Lu et al (2024) SLM에 대해서 공부할 때 본 논문으로 LLM 서베이처럼 간략하게 키워드 중심으로 정리하되 간단한 설명도 곁들이고자 한다. 1. Overview   OPT를 포함한 SLM의 타임라인이다.     BLOOM, Phi, Gemma, Qwen, SmolLM 외에도 다양한 SLM을 이 논문을 통해서 확인했다.    2. Architectures아래에서는 전체적인 model의 구조를 KV-cache, Attention의 종류, Normalization의 종류, Activation의 종류 등을 일목요연하게 파이 차트로 정리한 그림으로 들어간다.    Attention.. 2025. 3. 17.