NLP/NLP - Data & Eval3 RAGAS의 metric별 required columns RAGAS는 Retrieval Augmented Generation Assessment의 약자로 RAG의 성능을 평가하기 위한 프레임워크다. 깃허브: 링크도큐먼트: 링크논문: 링크 RAGAS의 평가 함수의 상당히 많은 부분은 LLM as a Judge를 기반으로 동작한다. 따라서 OpenAI, Google Cloud, Claude, AWS, Azure 등등을 지원한다. 물론 LLM 없이 Context Precision을 평가하는 이런 사례도 있다.Context Recall 역시 Non LLM 방법으로 평가 가능하다.따라서 비용이나 목적 등에 맞게 사용하면 된다. RAGAS에서는 이를 Traditional NLP Metrics라고 하며 BLEU, ROUGE, Exact Match, String Pres.. 2025. 3. 28. RAG에서의 평가 지표 파이토치 한국 사용자 모임의 박정환님의 RAG 서베이 논문과 관련된 글 1편과 2편 을 보다가 궁금해져서 찾아 보았다. 원본이 되는 RAG Survey 논문의 링크 역시 같이 포함한다. 주의점위 2편의 글과 원본 서베이 논문을 보면 알겠지만 RAG의 검색 (Retrieval)파트와 생성 (Generation) 파트를 각각 별개로 평가할 수 있다는 점에 유의해야한다. Downstream Tasks and Datasets of RAG TraviaQA나 SST-2, GSM8K, HellaSwag 등등 익숙한 기존의 LM의 평가 데이터들도 많이 보인다.하지만 결국 궁금한것은 최종적으로 구현하거나 가져와서 써야 하는 평가 함수, 즉 accuracy나 F1 score나 Exact Match (EM) 등 어떤 것을.. 2025. 3. 26. GLUE, SuperGLUE, KLUE, Huggingface LB 요즘은 LLM의 등장 이후 이런 거대 모델 백본으로 하여 전이 학습 등을 적용한 사례들이 늘어나고 있다.LLM은 다양한 자연어 태스크를 처리할 수 있도록 학습되는데 이를 위한 벤치마크가 GLUE다.GLUE와 그 확장 버젼인 SuperGLUE는 영어라서 한국어인 KLUE도 소개한다. GLUE GLUE는 General Language Understanding Evaluation의 약자로 다양한 NLU 태스크들을 모아서 인간처럼 여러가지 복잡한 자연어 처리를 수행할 수 있는지를 확인할 수 있는 벤치마크다. GLUE Tasks는 총 11개다. 각각의 태스크에 맞는 영어 데이터와 부합하는 evaluation metrics가 나와있다. 위에서 부터 차례대로 태스크, 데이터, 메트릭을 살펴보자. Single-.. 2024. 3. 4. 이전 1 다음