LLM as a Judge (2023) 논문 리뷰

LLM as a Judge는 Judging LLM-as-a-Judge with MT-Bench and Chatbot Arena 논문에서 소개된 방법이다. (링크)

저자는 Lianmin Zheng, Wei-Lin Chiang, Ying Sheng, Siyuan Zhuang, Zhanghao Wu, Yonghao Zhuang, Zi Lin, Zhuohan Li, Dacheng Li, Eric P. Xing, Hao Zhang, Joseph E. Gonzalez, Ion Stoica다.

LLM as a Judge의 핵심 개념은 간단하다. LLM으로 다른 LLM을 평가한다.

논 논문에서는 MT-bench와 Chatbot Arena (HF Chatbot Arena Leaderboard 링크) 으로 평가를 수행했다.

Chatbot Arena Leaderboard: (링크)

Abstract

강력한 성능의 LLM으로 보다 많은 open-ended 질문에 대한 평가를 수행한다.

LLM as a judge의 유용성과 한계점을 검토한다.

MT-bench로 멀티턴 질문 세트와 Chatbot Arena로 크라우드 소스 기반 배틀 플랫폼에서의 성능을 살펴본다.

GPT-5처럼 강력한 LLM들은 통제되고 크라우드 소스에 기반한 human preferences에 비견할만하다.

이는 80% 이상의 동의를 받았다. (achieving over 80% agreement).

Github page (링크)

Figure 1은 한 명의 유저와 2 개의 AI assistants의 대화다.

GPT-4가 두 AI 어시스턴트에 대해서 평가를 수행한다.

2. MT-Bench and Chatbot Arena

2.1. Motivation

현존하는 벤치마크의 구분

Core-knowledge benchmarks:

MMLU, HellaSwag, ARC, WinoGrande, HumanEval, GSM-8K, AGIEval

Instruction-following benchmarks:

Flan, Self-instruct, NaturalInstructions, Super-NaturalInstructions

Conversational benchmarks:

CoQA, MMDialog, OpenAssistant

2.2. MT-Bench

총 80개의 고품질의 멀티턴 질문을 포함한다.

멀티턴 대화, instruction-following, 상식과 어려운 질문에 대한 답변 능력을 평가한다.

총 8개의 Writing, roleplay, extraction, reasoning, math, coding, knowledge 1 (STEM), knowledge 2 (humanities, social science) 범주로 구성한다. 저자들은 개별 범주에 대해서 10개의 멀티턴 질문으로 디자인하는데 수작업으로 진행했다.

Table 1에 예시가 나와있다.