RAGAS는 Retrieval Augmented Generation Assessment의 약자로 RAG의 성능을 평가하기 위한 프레임워크다.
깃허브: 링크
도큐먼트: 링크
논문: 링크
RAGAS의 평가 함수의 상당히 많은 부분은 LLM as a Judge를 기반으로 동작한다.
따라서 OpenAI, Google Cloud, Claude, AWS, Azure 등등을 지원한다.
물론 LLM 없이 Context Precision을 평가하는 이런 사례도 있다.
Context Recall 역시 Non LLM 방법으로 평가 가능하다.
따라서 비용이나 목적 등에 맞게 사용하면 된다.
RAGAS에서는 이를 Traditional NLP Metrics라고 하며 BLEU, ROUGE, Exact Match, String Presence 등을 지원한다.
Traditional NLP Metrics 도큐먼트: 링크
본래 테디님의 RAGAS 노트 를 보고 따라하다가 question, answer, contexts 등의 변수가 더 이상 작동하지 않음을 알았다.
RAGAS의 평가 데이터가 받는 컬럼의 변수 이름이 변경되었길래 정리할 겸 올리는 포스트다.
Required Column Names of Each Metric
싱글 턴 대화와 멀티 턴 대화 별로 필요한 컬럼을 정리해보았다.
Single Turn Sample
이름 | 데이터 타입 | 설명 |
user_input | Optional[str] | 사용자가 보내는 쿼리 |
retrieved_contexts | Optional[List[str]] | retriever로 받아온 컨텍스트 |
reference_contexts | Optional[List[str]] | 쿼리에 적합한 기준이 될 만한 컨텍스트 |
response | Optional[str] | 쿼리에 대해 LM이 생성한 답변 |
multi_response | Optional[List[str]] | LM이 생성한 여러개의 답변 리스트 |
reference | Optional[str] | 정답 |
rubric | Optional[Dict[str, str]] | 답안 평가 가이드 |
rubric의 경우 General Purpose Metrics 도큐먼트의 Rubrics based criteria scoring 항목에 나와 있는 예시를 보면 이해할 수 있다.
from ragas.dataset_schema import SingleTurnSample
from ragas.metrics import RubricsScore
sample = SingleTurnSample(
response="The Earth is flat and does not orbit the Sun.",
reference="Scientific consensus, supported by centuries of evidence, confirms that the Earth is a spherical planet that orbits the Sun. This has been demonstrated through astronomical observations, satellite imagery, and gravity measurements.",
)
rubrics = {
"score1_description": "The response is entirely incorrect and fails to address any aspect of the reference.",
"score2_description": "The response contains partial accuracy but includes major errors or significant omissions that affect its relevance to the reference.",
"score3_description": "The response is mostly accurate but lacks clarity, thoroughness, or minor details needed to fully address the reference.",
"score4_description": "The response is accurate and clear, with only minor omissions or slight inaccuracies in addressing the reference.",
"score5_description": "The response is completely accurate, clear, and thoroughly addresses the reference without any errors or omissions.",
}
scorer = RubricsScore(rubrics=rubrics, llm=evaluator_llm)
await scorer.single_turn_ascore(sample)
총 5점으로 별점을 주되 다음의 가이드를 따른다.
1점: 답변이 총체적으로 틀렸으며 레퍼런스 문서의 어떤 면도 반영하지 못함.
2점: 답변에 부분적으로 정확한 정보가 있으나 중대한 오류나 중요한 사항의 누락이 있어서 레퍼런스를 충분히 참조하지 못함.
3점: 답변이 대체적으로는 정확하지만 명확성, 완전성이 떨어지거나 사소한 정보들이 충분히 레퍼런스로 부터 반영되지 못함.
4점: 답변이 정확하고 명확하지만, 레퍼런스를 참조함에 있어서 약간의 사소한 정보 누락이나 약간의 부정확성이 있음.
5점: 답변이 완벽하게 정확하고 명확하며 완전하다. 레퍼런스를 참조함에 있어서 어떤 오류나 누락도 없다.
Multi Turn Sample
이름 | 데이터 타입 | 설명 |
user_input | List[Union[HumanMessage, AIMessage, ToolMessage]] | 매 턴마다의 대화를 반영하는 메시지의 리스트 |
reference | (Optional[str], optional) | 대화의 결과로 기대하는 혹은 참고가 되는 정답 |
reference_tool_calls | (Optional[List[ToolCall]], optional) | 대화 중에 불러오리라 기대 되는 툴들의 리스트 |
rubrics | (Optional[List[str]], optional) | 대화를 평가하는 복수의 평가 가이드들 |
reference_topics | (Optional[List[str]], optional) | 대화에 대한 참조가 되는 주제들 |
원문: 링크
Metrics
이제 여기서는 구체적으로 개별 평가 지표 별로 어떤 컬럼들이 필요한지 표로 정리해본다.
Single Turn Metrics
이름 | 컬럼 | Range |
Faithfulness | {'user_input', 'response' , 'retrieved_contexts'} | [0, 1] |
AnswerAccuracy | {'user_input', 'response', 'reference'} | [0, 1] |
AnswerCorrectness | {'user_input', 'response', 'reference'} | [0, 1] - F1 score based |
ContextEntityRecall | {'reference', 'retrieved_contexts'} | [0, 1] |
LLMContextRecall | {'user_input', 'retrieved_contexts', 'reference'} | [0, 1] |
LLMContextPrecisionWithReference | {'user_input', 'retrieved_contexts', 'reference'} | [0, 1] |
ResponseRelevancy | {'user_input', 'response'} | [-1, 1] - cos sim |
ResponseGroundedness | {'response', 'retrieved_contexts'} | 0, 1, 2 - discrete |
ContextRelevance | {'user_input', 'retrieved_contexts'} | 0, 1, 2 - discrete |
SemanticSimilarity | {'reference', 'response'} | [-1, 1] - cos sim |
구체적인 식 없이 어떤 변수 컬럼이 들어가는지만 봐도 대략적으로 어떤 항목들을 평가하고 싶은지 감이 잡힌다.
Metric의 Range
Accuracy나 Precision, Recall은 ML, DL을 공부하는 사람들이라면 익숙할 내용이라 생략한다.
또한 Faithfulness의 경우 RAGAS 노트 에 한글로 잘 설명되어서 생략한다.
여기서는 나머지 지표들인 Response Relevancy, Semantic Similarity, Response Groundedness, Context Relevance에 대해서 간략하게 정리한다.
Response Relevancy와 Semantic Similarity
- 코사인 유사도라서 -1과 1의 범위를 갖지만 대부분은 0과 1사이의 값이 도출된다고 한다.
Response Groundedness
- 할루시네이션인지를 판단하는데 0, 1, 2 순으로 이산적으로 측정하며 클 수록 더 좋다.
- 즉, 숫자가 클수록 할루시네이션이 없다고 판단한다.
0 → 답변이 컨텍스트를 전혀 반영하지 않음.
1 → 답변이 컨텍스트를 부분적으로 반영.
2 → 답변이 컨텍스트를 완전히 반영.
Context Relevance
- 컨텍스트와 쿼리의 연관성을 반영하는데 Groundedness처럼 0, 1, 2 순으로 이산적으로 측정하며 클 수록 더 좋다.
- 즉, 숫자가 클수록 연관성이 높다고 판단한다.
0 → 컨텍스트가 쿼리를 전혀 반영하지 않음.
1 → 컨텍스트가 쿼리를 부분적으로 반영.
2 → 컨텍스트가 쿼리를 완전히 반영.
reference_contexts의 행방
위 표의 arugments를 보면
reference_contexts는 없는 것을 확인할 수 있는데 기본적으로 RAGAS는 아래 클래스들에서 사용한다.
- NonLLMContextPrecisionWithReference
- NonLLMContextRecall
- SummarizationScore
Non LLM Context의 평가와 요약 문제에서 사용함을 알 수 있다.
from ragas.metrics의 기본 함수들
테디 노트의 RAGAS를 활용한 평가 페이지에서는 아래와 같이 여러 함수들을 불러온다.
구체적으로 어떤 클래스들인지 궁금해서 찾아봤다.
from ragas.metrics import (
answer_relevancy,
faithfulness,
context_recall,
context_precision,
)
RAGAS의 github에 있는 context_recall, context_precision, answer_relevancy를 찾아보니
구체적으로 위에 언급된 어떤 클래스를 상속 받아서 사용하는지를 알 수 있었다.
1. context_recall은 LLMContextRecall의 자식 class다.
2. context_precision은 LLMContextPrecisionWithReference의 자식 class다.
3. answer_relavency은 LResponseRelevancy의 자식 class다.
구체적인 코드는 아래와 같다.
1. context_recall은 LLMContextRecall의 자식 class다.
@dataclass
class ContextRecall(LLMContextRecall):
name: str = "context_recall"
@deprecated(since="0.2", removal="0.3", alternative="LLMContextRecall")
async def _single_turn_ascore(
self, sample: SingleTurnSample, callbacks: Callbacks
) -> float:
row = sample.to_dict()
return await self._ascore(row, callbacks)
@deprecated(since="0.2", removal="0.3", alternative="LLMContextRecall")
async def _ascore(self, row: t.Dict, callbacks: Callbacks) -> float:
return await super()._ascore(row, callbacks)
context_recall = ContextRecall()
2. context_precision은 LLMContextPrecisionWithReference의 자식 class다.
@dataclass
class ContextPrecision(LLMContextPrecisionWithReference):
name: str = "context_precision"
async def _single_turn_ascore(
self, sample: SingleTurnSample, callbacks: Callbacks
) -> float:
return await super()._single_turn_ascore(sample, callbacks)
@deprecated(
since="0.2", removal="0.3", alternative="LLMContextPrecisionWithReference"
)
async def _ascore(self, row: t.Dict, callbacks: Callbacks) -> float:
return await super()._ascore(row, callbacks)
context_precision = ContextPrecision()
3. answer_relavency은 ResponseRelevancy의 자식 class다.
class AnswerRelevancy(ResponseRelevancy):
async def _ascore(self, row: t.Dict, callbacks: Callbacks) -> float:
return await super()._ascore(row, callbacks)
answer_relevancy = AnswerRelevancy()
추가적으로 소스 코드를 살펴보다 보면 구체적으로 프롬프트를 어떻게 만들었는지도 확인 할 수 있다.
아래는 answer_relevancy의 프롬프트다.
class ResponseRelevancePrompt(
PydanticPrompt[ResponseRelevanceInput, ResponseRelevanceOutput]
):
instruction = """Generate a question for the given answer and Identify if answer is noncommittal. Give noncommittal as 1 if the answer is noncommittal and 0 if the answer is committal. A noncommittal answer is one that is evasive, vague, or ambiguous. For example, "I don't know" or "I'm not sure" are noncommittal answers"""
input_model = ResponseRelevanceInput
output_model = ResponseRelevanceOutput
examples = [
(
ResponseRelevanceInput(
response="""Albert Einstein was born in Germany.""",
),
ResponseRelevanceOutput(
question="Where was Albert Einstein born?",
noncommittal=0,
),
),
(
ResponseRelevanceInput(
response="""I don't know about the groundbreaking feature of the smartphone invented in 2023 as am unaware of information beyond 2022. """,
),
ResponseRelevanceOutput(
question="What was the groundbreaking feature of the smartphone invented in 2023?",
noncommittal=1,
),
),
]
인스트럭션 프롬프트와 ICL에 사용할 예시들; 쿼리와, noncommittal=0일 때와 1일 때의 각각의 경우를 모두 포함하고 있음을 알 수 있다.
Future Works
[랭체인밋업 Q2 발표] 제 RAG 경험은 이제 #LangGraph 경험하기 전과 후로 나뉩니다. (링크) 영상을 보면 LangGraph와 RAG, 그리고 RAGAS를 활용해서 LLM 생성 성능을 올리는 방안이 가능할 듯 싶다.
Self-RAG 항목을 보면 RAG 여부도 LLM이 따로 판단할 수 있다는 점을 알 수 있다.
위 영상과 Self-RAG를 고려하여 다음과 같은 RAG 시스템 설계가 가능할 것 같다.
우선 실제 서비스 이전 개발 단계를 생각해본다.
서비스의 부품 고려 사항
- LLM 모델 선택 (비용, 성능, 레이턴시 등등을 고려하여 결정)
- Embedding 모델 선택 (성능, 레이턴시, 비용, 임베딩 사이즈를 고려하여 결정)
- 초기 쿼리 프롬프트
- Retriever 선택
- pdf와 같은 데이터의 전처리 단계
가정사항
- 데이터 전처리는 구축되어 있다.
- 데이터에는 user_input, documents, reference, rubric이 주어져 있다.
- LLM와 embedding 모델은 이미 결정되었다.
개발 단계
LangGraph 하에서
1. 1차 답변 (response) 생성
2.. RAG 여부 판단
3. Retriever 성능 판단 단계
3.1. Retriever로 contexts 추출
3.2. 2차 response 생성 없이 쿼리(user_input)와 retrieved contexts, reference 만을 가지고 판단.
3.3. 2차 response 생성까지 포함하여 user_input, retrieved contexts, reference를 모두 사용하여 판단.
4. 피드백 단계
4.1. retrieved contexts가 충분하다면 6단계인 생성 단계로 진입.
4.2. retrieved contexts가 부족하다고 판단되면 5단계로 진입.
4.2.1. retriever 변경
4.2.2. 인터넷 검색 추가
4.2.3. 쿼리 변경
5. 3단계와 4단계 루프 재시작
6. 루프 종료 후 최종 답변 생성
6.1. 무한 루프 방지를 위해 루프 회수 제한
7. 성능 비교 및 선택
7.1. 변경된 쿼리를 참조해서 초기 쿼리에 들어가는 프롬프트 성능 비교 및 선택
7.2. retriever 성능 비교 및 선택
7.3. Retriever 성능 판단에서 2차 response 생성 포함 여부 결정
서비스 단계
LangGraph 하에서
1. 1차 답변 (response) 생성
2.. RAG 여부 판단
3. Retriever 성능 판단 단계
3.1. Retriever로 contexts 추출
3.2. retrieved_contexts에 대한 판단.
4. 피드백 단계
4.1. retrieved contexts가 충분하다면 6단계인 생성 단계로 진입.
4.2. retrieved contexts가 부족하다고 판단되면 5단계로 진입.
4.2.1. retriever 변경
4.2.2. 인터넷 검색 추가
4.2.3. 쿼리 변경
5. 3단계와 4단계 루프 재시작
6. 루프 종료 후 최종 답변 생성
6.1. 무한 루프 방지를 위해 루프 회수 제한
7. 서비스하면서 수집된 신규 데이터를 통해 RAG 성능 평가
7.1. 보강이 필요하다면 다시 개발 단계로 넘어가서 보강.
최근에는 Model Context Protocol (MCP)라는 개념이 새로 뜨고 있던데 LangGraph를 충분히 구현해본 이후에 공부하기로 한다.
Refernces:
https://docs.ragas.io/en/stable/references/metrics/#ragas.metrics.AnswerCorrectness
https://docs.ragas.io/en/latest/concepts/metrics/available_metrics/
https://github.com/explodinggradients/ragas/blob/main/src/ragas/metrics/_context_recall.py
https://github.com/explodinggradients/ragas/blob/main/src/ragas/metrics/_context_precision.py
'NLP' 카테고리의 다른 글
Self-RAG, RAGAS 그리고 RAG Evaluation by LLM (0) | 2025.04.02 |
---|---|
OpenAI Responses API vs Chat Completion API (0) | 2025.03.28 |
RAG에서의 평가 지표 (0) | 2025.03.26 |
Small Language Models: Survey, Measurements, and Insights (0) | 2025.03.17 |
A Survey of Large Language Model - Wayne Xin Zhao et al (2024) (0) | 2025.03.17 |