-
Self-RAG, RAGAS 그리고 RAG Evaluation by LLM
Self-RAG의 github 그리고 논문 링크 그리고 RAGAS의 github (링크), 도큐먼트 (링크), 논문 (링크), 그리고 테디 노트의 Self-RAG과 RAGAS, 그리고 기본 LangGraph 생성을 보다가 궁금해져서 프롬프트를 정리해보았다. Self-RAG과 RAGAS 모두 RAG를 평가함에 있어서 LLM as a Judge 논문에 상당 부분 근거하고 있기 때문에LLM이 평가하는 근거가 되는 프롬프트가 중요하기 때문이다.Huggingface에서도 LLM as a Judge에 대한 방법을 링크에서 소개하고 있다. RAG Evaluation에서 사용하는 프롬프트는 이 링크에 나와있다. yes, no 형식의 간단한 방식과 구체적인 score를 내는 방식의 장단점도 생각해보았다. 평가 지표별 ..
2025.04.02
-
백엔드 기초 개념과 가이드 라인
백엔드 (Backend):웹 어플리케이션이나 소프트웨어의 서버 측 구성 요소사용자에게 직접 보이지 않지만 앱의 핵심 로직을 처리하고 데이터를 관리한다. 1. 주요 기능: - 데이터 처리 및 저장 - 비즈니스 로직 구현 - API 제공 - 보안 및 인증 관리 - 프론트엔드와의 통신 2. 주요 구성 요소: a) 서버: - 웹 서버 (예: Nginx, Apache) - 프론트엔드 서버 - 어플리케이션 서버 (예: Tomcat, Gunicorn) - 백엔드 서버. 웹 제공 - API 서버 - 데이터 통신, 즉 DB 접근 목적 b) 데이터베이스: - 관계형 DB (MySQL, PostgreSQL 등등) - NoSQL DB ..
2025.03.30
-
OpenAI Responses API vs Chat Completion API
LangSmith를 사용하려는데 langsmith_wrapper에서 openai가 대체 무슨 작업인가 깃허브를 찾아보니까 아래 코드가 있었다. from __future__ import annotationsfrom typing import TYPE_CHECKING, Anyfrom langsmith.wrappers.base import ModuleWrapperif TYPE_CHECKING: import openaidef __getattr__(name: str) -> Any: if name == "openai": try: import openai as openai_base except ImportError: raise ImportErr..
2025.03.28
-
RAGAS의 metric별 required columns
RAGAS는 Retrieval Augmented Generation Assessment의 약자로 RAG의 성능을 평가하기 위한 프레임워크다. 깃허브: 링크도큐먼트: 링크논문: 링크 RAGAS의 평가 함수의 상당히 많은 부분은 LLM as a Judge를 기반으로 동작한다. 따라서 OpenAI, Google Cloud, Claude, AWS, Azure 등등을 지원한다. 물론 LLM 없이 Context Precision을 평가하는 이런 사례도 있다.Context Recall 역시 Non LLM 방법으로 평가 가능하다.따라서 비용이나 목적 등에 맞게 사용하면 된다. RAGAS에서는 이를 Traditional NLP Metrics라고 하며 BLEU, ROUGE, Exact Match, String Pres..
2025.03.28
-
RAG에서의 평가 지표
파이토치 한국 사용자 모임의 박정환님의 RAG 서베이 논문과 관련된 글 1편과 2편 을 보다가 궁금해져서 찾아 보았다. 원본이 되는 RAG Survey 논문의 링크 역시 같이 포함한다. 주의점위 2편의 글과 원본 서베이 논문을 보면 알겠지만 RAG의 검색 (Retrieval)파트와 생성 (Generation) 파트를 각각 별개로 평가할 수 있다는 점에 유의해야한다. Downstream Tasks and Datasets of RAG TraviaQA나 SST-2, GSM8K, HellaSwag 등등 익숙한 기존의 LM의 평가 데이터들도 많이 보인다.하지만 결국 궁금한것은 최종적으로 구현하거나 가져와서 써야 하는 평가 함수, 즉 accuracy나 F1 score나 Exact Match (EM) 등 어떤 것을..
2025.03.26