GPT 3 (2020) 논문 리뷰
GPT-3의 논문 이름은 Language Models are Few-Shot Learners다. (링크) 저자는 Tom B. Brown, Benjamin Mann, Nick Ryder, Melanie Subbiah, Jared Kaplan, Prafulla Dhariwal, Arvind Neelakantan, Pranav Shyam, Girish Sastry, Amanda Askell, Sandhini Agarwal, Ariel Herbert-Voss, Gretchen Krueger, Tom Henighan, Rewon Child, Aditya Ramesh, Daniel M. Ziegler, Jeffrey Wu, Clemens Winter, Christopher Hesse, Mark Chen, Eric ..
2025. 4. 9.
Small Language Models: Survey, Measurements, and Insights
Small Language Models: Survey, Measurements, and Insights - Zhenyan Lu et al (2024) SLM에 대해서 공부할 때 본 논문으로 LLM 서베이처럼 간략하게 키워드 중심으로 정리하되 간단한 설명도 곁들이고자 한다. 1. Overview OPT를 포함한 SLM의 타임라인이다. BLOOM, Phi, Gemma, Qwen, SmolLM 외에도 다양한 SLM을 이 논문을 통해서 확인했다. 2. Architectures아래에서는 전체적인 model의 구조를 KV-cache, Attention의 종류, Normalization의 종류, Activation의 종류 등을 일목요연하게 파이 차트로 정리한 그림으로 들어간다. Attention..
2025. 3. 17.