본문 바로가기

분류 전체보기230

Chinchilla (2022) 논문 리뷰 Chinchilla 모델이 등장한 논문의 이름은 Training Compute-Optimal Large Language Models다(링크) 저자는 Jordan Hoffmann, Sebastian Borgeaud, Arthur Mensch, Elena Buchatskaya, Trevor Cai, Eliza Rutherford, Diego de Las Casas, Lisa Anne Hendricks, Johannes Welbl, Aidan Clark, Tom Hennigan, Eric Noland, Katie Millican, George van den Driessche, Bogdan Damoc, Aurelia Guy, Simon Osindero, Karen Simonyan, Erich Elsen, Jac.. 2025. 4. 11.
LaMDA (2022) 논문 리뷰 LaMDA  모델의 논문 이름은 LaMDA: Language Models for Dialog Applications다. (링크) 저자는 Romal Thoppilan, Daniel De Freitas, Jamie Hall, Noam Shazeer, Apoorv Kulshreshtha, Heng-Tze Cheng, Alicia Jin, Taylor Bos, Leslie Baker, Yu Du, YaGuang Li, Hongrae Lee, Huaixiu Steven Zheng, Amin Ghafouri, Marcelo Menegali, Yanping Huang, Maxim Krikun, Dmitry Lepikhin, James Qin, Dehao Chen, Yuanzhong Xu, Zhifeng Chen, A.. 2025. 4. 11.
Scaling Laws for Neural Language Models (2020) 논문 리뷰 Scaling Laws for Neural Language Models는 언어 모델에서의 데이터와 모델 사이즈를 늘리는 것에 대한 체계적인 연구를 다룬 논문이다. GPT-3에서도 언급되었으며 LLM의 중요한 기반이 되는 논문이다. (링크) 저자는 Jared Kaplan, Sam McCandlish, Tom Henighan, Tom B. Brown, Benjamin Chess, Rewon Child, Scott Gray, Alec Radford, Jeffrey Wu, Dario Amodei이다. OpenAI에서 발표한 논문으로 LLM의 이론적 실험적인 증거가 되는 논문이다.그전에는 결과만 보고 넘어갔는데 이번 기회에 다소 자세하게 논문을 살펴보고 이해해서 정리하고자 한자. Abstract크로스 엔트로피를.. 2025. 4. 11.
LoRA (2021) 논문 리뷰 LoRA의 논문 이름은 LoRA: Low-Rank Adaptation of Large Language Models다. (링크) 저자는 Edward J. Hu, Yelong Shen, Phillip Wallis, Zeyuan Allen-Zhu, Yuanzhi Li, Shean Wang, Lu Wang, Weizhu Chen다. Github: 링크 이름에서 알 수 있듯이 기존의 adapter 레이어를 추가하는 방식과 같지만 이를 low-rank로 만든다는 점에서 차이가 있다. 여기서 말하는 rank는 선형대수의 그 rank가 맞다. AbstractGPT-3 175B와 같은 큰 모델의 파인 튜닝은 매우 비싸다. 따라서 저자들은 Low-Rank Adaptation, LoRA를 제시한다. 모델의 원래 we.. 2025. 4. 11.
Pre-train 데이터 정리 Language Model은 크게 Pre-train과 Fine-tuning 단계가 있다. GPT 3 이후 Pre-trian 단계에서 막대한 양의 데이터를 NTP (Next token prediction)과 In-context Learning (ICL)의 측면에서 학습을 한다. 그동한 읽었던 논문들에서 많이 쓰이는 대용량의 고품질 데이터들을 간단하게 정리하고자 한다. WikipediaC4 (Colossal Clean Crawled Corpus)The PileRefined WebFineWebWebTextRedPajamaBook Corpus Wikipedia(huggingface link) 300개가 넘는 언어를 지원하는 데이터다. C4(huggingface link) 구글에서 만든 common crawl.. 2025. 4. 11.
OPT (2022) 논문 리뷰 OPT의 논문 이름은 OPT: Open Pre-trained Transformer Language Models다. (링크) 저자는 Susan Zhang, Stephen Roller, Naman Goyal, Mikel Artetxe, Moya Chen, Shuohui Chen, Christopher Dewan, Mona Diab, Xian Li, Xi Victoria Lin, Todor Mihaylov, Myle Ott, Sam Shleifer, Kurt Shuster, Daniel Simig, Punit Singh Koura, Anjali Sridhar, Tianlu Wang, Luke Zettlemoyer다.  메타 (페이스북)에서 공개한 오픈 소스 Decoder LLM 모델이다.   AbstractO.. 2025. 4. 11.