본문 바로가기
NLP/LLM

41가지 로컬 LLM 벤치마크를 실행 결과

by 아르카눔 2025. 9. 2.

Reddit의 Local LLaMA를 보다가 흥미로운 결과가 있어서 공유한다.

 

I locally benchmarked 41 open-source LLMs across 19 tasks and ranked them (레딧 링크, Github 링크)

 

LLM 벤치마크 선정은 해당 깃허브 (링크)를 참조했다고 한다.

 

 

해당 프로젝트는 머신 런타임으로는 18일 8시간이 걸렸으며, RTX 5090 GPU 시간으로는 14일 23시간이 걸렸다고 한다. 

 

 

19가지 벤치마크 

19가지 벤치마크는 다시 크게 3가지 범주로 나누었다.

Reasoning & Math, Commonsense & Natural Language Inference, 그리고 Knowledge & Reading이다. 

각 범주의 구체적인 항목은 다음과 같다. 

 

Reasoning & Math


Tasks: gsm8k(exact_match,strict-match), bbh(exact_match,get-answer), arc_challenge(acc_norm,none), anli_r1(acc,none), anli_r2(acc,none), anli_r3(acc,none), gpqa_main_zeroshot(acc_norm,none)

Commonsense & Natural Language Inference


Tasks: hellaswag(acc_norm,none), piqa(acc_norm,none), winogrande(acc,none), boolq(acc,none), openbookqa(acc_norm,none), sciq(acc_norm,none), qnli(acc,none)

Knowledge & Reading


Tasks: mmlu(acc,none), nq_open(exact_match,remove_whitespace), drop(f1,none), truthfulqa_mc1(acc,none), truthfulqa_mc2(acc,none), triviaqa(exact_match,remove_whitespace)

 

 

Performance of Models on Benchmarks

선택한 모델들은 다음과 같다.

 

 

  1. google_gemma-3-12b-it
  2. Qwen_Qwen3-14B (8bit)
  3. openchat_openchat-3.6-8b-20240522
  4. Qwen_Qwen3-8B
  5. Qwen_Qwen2.5-7B-Instruct
  6. Qwen_Qwen2.5-14B-Instruct (8bit)
  7. 01-ai_Yi-1.5-9B
  8. Qwen_Qwen2.5-7B-Instruct-1M
  9. meta-llama_Llama-3.1-8B-Instruct
  10. 01-ai_Yi-1.5-9B-Chat
  11. mistralai_Ministral-8B-Instruct-2410
  12. meta-llama_Meta-Llama-3-8B-Instruct
  13. Qwen_Qwen3-4B
  14. NousResearch_Hermes-2-Pro-Mistral-7B
  15. mistralai_Mistral-7B-Instruct-v0.3
  16. google_gemma-3-4b-it
  17. 01-ai_Yi-1.5-6B-Chat
  18. 01-ai_Yi-1.5-6B
  19. Qwen_Qwen2-7B-Instruct
  20. deepseek-ai_DeepSeek-R1-0528-Qwen3-8B
  21. meta-llama_Llama-3.2-3B-Instruct
  22. Qwen_Qwen2.5-3B-Instruct
  23. Qwen_Qwen2.5-Math-7B
  24. deepseek-ai_deepseek-llm-7b-chat
  25. deepseek-ai_DeepSeek-R1-Distill-Llama-8B
  26. meta-llama_Llama-2-13b-hf
  27. meta-llama_Llama-2-13b-chat-hf
  28. deepseek-ai_DeepSeek-R1-Distill-Qwen-7B
  29. Qwen_Qwen2.5-1.5B-Instruct
  30. Qwen_Qwen3-1.7B
  31. Qwen_Qwen2.5-Math-7B-Instruct
  32. meta-llama_Llama-2-7b-chat-hf
  33. meta-llama_Llama-2-7b-hf
  34. deepseek-ai_deepseek-llm-7b-base
  35. deepseek-ai_deepseek-math-7b-rl
  36. meta-llama_Llama-3.2-1B-Instruct
  37. google_gemma-3-1b-it
  38. deepseek-ai_DeepSeek-R1-Distill-Qwen-1.5B
  39. Qwen_Qwen2.5-Math-1.5B-Instruct
  40. Qwen_Qwen3-0.6B
  41. Qwen_Qwen2.5-0.5B-Instruct

 

 

Gemma 3, Qwen 2.5, 3이나 Llama 3.2, Mistral, DeepSeek 등의 모델들은 익숙한데 OpenChat, 01.AI, NousResearch 모델은 생소했다.

 

 

 

 

Overall Rank

 

 

Gemma3 12B나 Qwen3 14B는 좋다고 알음알음 풍문으로 들었는데 OpenChat이나 01.AI의 모델도 제법 성능이 좋게 나온게 흥미롭다.

 

5B 이하의 모델로는 Qwen3 4B와 Gemma 3 4B IT가 괜찮구나 하고 참고하면 좋을듯하다. 

 

더 작은 모델이 필요하다면 LLaMa 3.2 3B IT와 Qwen 2.5 3B IT를 쓰면 될듯하다.