LLM as a Judge (2023) 논문 리뷰
LLM as a Judge는 Judging LLM-as-a-Judge with MT-Bench and Chatbot Arena 논문에서 소개된 방법이다. (링크) 저자는 Lianmin Zheng, Wei-Lin Chiang, Ying Sheng, Siyuan Zhuang, Zhanghao Wu, Yonghao Zhuang, Zi Lin, Zhuohan Li, Dacheng Li, Eric P. Xing, Hao Zhang, Joseph E. Gonzalez, Ion Stoica다. LLM as a Judge의 핵심 개념은 간단하다. LLM으로 다른 LLM을 평가한다. 논 논문에서는 MT-bench와 Chatbot Arena (HF Chatbot Arena Leaderboard 링크) 으로 평가를 수행..
2025. 4. 17.
LLaMA (2023) 논문 리뷰
LLaMA의 논문 이름은 LLaMA: Open and Efficient Foundation Language Models다. (링크) 저자는 Hugo Touvron, Thibaut Lavril, Gautier Izacard, Xavier Martinet, Marie-Anne Lachaux, Timothée Lacroix, Baptiste Rozière, Naman Goyal, Eric Hambro, Faisal Azhar, Aurelien Rodriguez, Armand Joulin, Edouard Grave, Guillaume Lample다. LLaMA 패밀리의 첫 모델이다. Abstract7B 부터 65B의 사이즈를 가진 LLM이다. 조단위의 토큰에 대해서 학습했다. LLaMA-13B는 GPT-..
2025. 4. 16.
InstructGPT (2022) 논문 리뷰
InstructGPT의 논문 이름은 Training language models to follow instructions with human feedback다. (링크) 저자는 Long Ouyang, Jeff Wu, Xu Jiang, Diogo Almeida, Carroll L. Wainwright, Pamela Mishkin, Chong Zhang, Sandhini Agarwal, Katarina Slama, Alex Ray, John Schulman, Jacob Hilton, Fraser Kelton, Luke Miller, Maddie Simens, Amanda Askell, Peter Welinder, Paul Christiano, Jan Leike, Ryan Lowe다. RLHF (Reinf..
2025. 4. 15.