본문 바로가기
NLP/LLM

Emergent Abilities of Large Language Models (2022) 논문 리뷰

by 아르카눔 2025. 4. 17.

Emergent Abilities of Large Language Models는 LLM의 성능이 급격하게 오르는 파라미터 수를 연구한 논문이다. (링크)

 

저자는 Jason Wei, Yi Tay, Rishi Bommasani, Colin Raffel, Barret Zoph, Sebastian Borgeaud, Dani Yogatama, Maarten Bosma, Denny Zhou, Donald Metzler, Ed H. Chi, Tatsunori Hashimoto, Oriol Vinyals, Percy Liang, Jeff Dean, William Fedus다. 

 

Emergent abilities, 예기치 않게 생겨난 능력이 LM 모델의 스케일을 키울 때 등장한다는 내용을 다룬 논문이다. 

 

 

 

 

전반적으로 학습 FLOPs가 10^22 에서 accuracy가 폭발적으로 증가함을 알 수 있다.

 

 

 

Math word problems, instruction following, calibration의 경우 10^23 승부터 급격히 증가하지만 8-digit addition의 경우 10^19와 10^20 사이에서 정확도가 급격히 증가한다.

 

 

 

앞의 Table 1에서는 Emergent abilities가 발생하는 학습 FLOPs와 모델 사이즈를 소개한다.

태스크 마다 emergent abilities의 발생 스케일이 다른 것을 확인할 수 있다.

 

 

 

Table 2에서는 모델 사이즈와 학습 FLOPs 그리고 학습 데이터의 토큰 수까지 포함해서 보여준다.

 

 

 

 

 

 

 

모델 사이즈 10B와 100B가 임계점 같아 보인다.

 

 

 

 

 

 

 

 

 

References:

https://heegyukim.medium.com/large-language-model%EC%9D%98-scaling-law%EC%99%80-emergent-ability-6e9d90813a87

https://velog.io/@joo98/%EC%A7%81%EA%B4%80%EC%A0%81%EC%9D%B8-%EB%85%BC%EB%AC%B8-%EB%A6%AC%EB%B7%B0-Are-Emergent-Abilities-of-Large-Language-Models-a-Mirage

https://questionet.tistory.com/75

 

 

'NLP > LLM' 카테고리의 다른 글

Self-Instruct (2022) 논문 리뷰  (0) 2025.04.17
LLaMA 2 (2023) 논문 리뷰  (0) 2025.04.17
LLaMA (2023) 논문 리뷰  (0) 2025.04.16
InstructGPT (2022) 논문 리뷰  (0) 2025.04.15
Chinchilla (2022) 논문 리뷰  (0) 2025.04.11