본문 바로가기

NLP15

Self-RAG, RAGAS 그리고 RAG Evaluation by LLM Self-RAG의 github 그리고 논문 링크 그리고 RAGAS의 github (링크), 도큐먼트 (링크), 논문 (링크), 그리고 테디 노트의 Self-RAG과 RAGAS, 그리고 기본 LangGraph 생성을 보다가 궁금해져서 프롬프트를 정리해보았다. Self-RAG과 RAGAS 모두 RAG를 평가함에 있어서 LLM as a Judge 논문에 상당 부분 근거하고 있기 때문에LLM이 평가하는 근거가 되는 프롬프트가 중요하기 때문이다.Huggingface에서도 LLM as a Judge에 대한 방법을 링크에서 소개하고 있다. RAG Evaluation에서 사용하는 프롬프트는 이 링크에 나와있다.  yes, no 형식의 간단한 방식과 구체적인 score를 내는 방식의 장단점도 생각해보았다. 평가 지표별 .. 2025. 4. 2.
OpenAI Responses API vs Chat Completion API LangSmith를 사용하려는데 langsmith_wrapper에서 openai가 대체 무슨 작업인가 깃허브를 찾아보니까 아래 코드가 있었다. from __future__ import annotationsfrom typing import TYPE_CHECKING, Anyfrom langsmith.wrappers.base import ModuleWrapperif TYPE_CHECKING: import openaidef __getattr__(name: str) -> Any: if name == "openai": try: import openai as openai_base except ImportError: raise ImportErr.. 2025. 3. 28.
RAGAS의 metric별 required columns RAGAS는 Retrieval Augmented Generation Assessment의 약자로 RAG의 성능을 평가하기 위한 프레임워크다. 깃허브: 링크도큐먼트: 링크논문:  링크 RAGAS의 평가 함수의 상당히 많은 부분은 LLM as a Judge를 기반으로 동작한다. 따라서 OpenAI, Google Cloud, Claude, AWS, Azure 등등을 지원한다.  물론 LLM 없이 Context Precision을 평가하는 이런 사례도 있다.Context Recall 역시 Non LLM 방법으로 평가 가능하다.따라서 비용이나 목적 등에 맞게 사용하면 된다. RAGAS에서는 이를 Traditional NLP Metrics라고 하며 BLEU, ROUGE, Exact Match, String Pres.. 2025. 3. 28.
RAG에서의 평가 지표 파이토치 한국 사용자 모임의 박정환님의 RAG 서베이 논문과 관련된 글 1편과 2편 을 보다가 궁금해져서 찾아 보았다. 원본이 되는 RAG Survey 논문의 링크 역시 같이 포함한다. 주의점위 2편의 글과 원본 서베이 논문을 보면 알겠지만 RAG의 검색 (Retrieval)파트와 생성 (Generation) 파트를 각각 별개로 평가할 수 있다는 점에 유의해야한다.  Downstream Tasks and Datasets of RAG TraviaQA나 SST-2, GSM8K, HellaSwag 등등 익숙한 기존의 LM의 평가 데이터들도 많이 보인다.하지만 결국 궁금한것은 최종적으로 구현하거나 가져와서 써야 하는 평가 함수, 즉 accuracy나 F1 score나 Exact Match (EM) 등 어떤 것을.. 2025. 3. 26.
Small Language Models: Survey, Measurements, and Insights Small Language Models: Survey, Measurements, and Insights - Zhenyan Lu et al (2024) SLM에 대해서 공부할 때 본 논문으로 LLM 서베이처럼 간략하게 키워드 중심으로 정리하되 간단한 설명도 곁들이고자 한다. 1. Overview   OPT를 포함한 SLM의 타임라인이다.     BLOOM, Phi, Gemma, Qwen, SmolLM 외에도 다양한 SLM을 이 논문을 통해서 확인했다.    2. Architectures아래에서는 전체적인 model의 구조를 KV-cache, Attention의 종류, Normalization의 종류, Activation의 종류 등을 일목요연하게 파이 차트로 정리한 그림으로 들어간다.    Attention.. 2025. 3. 17.
A Survey of Large Language Model - Wayne Xin Zhao et al (2024) A Survey of Large Language Model - Wayne Xin Zhao et al (2024) LLM에 대해서 공부할 때 전체적인 흐름을 파악하기 위해서 본 서베이 페이퍼다. 구글 스칼라에서 인용수가 2025년 3월 18일 기준 4000이 넘으며 2023년 이후 지속적으로 업데이트 되고 있는 논문이다. 특정 분야에 대해서 처음 접하거나 이미 공부한 다음 큰 틀에서 흐름을 정리하고자 할 때 유용한 것이 서베이 논문이라고 생각한다.  상기한 이유와 레퍼런스를 제외하고도 90페이지가 넘는 분량이기도 해서 전체적인 개요와 키워드, 그림 및 표 몇가지만 정리하고자 한다. 자세한 내용은 서베이 논문과 레퍼런스를 참고하면 좋겠다.  논문 목차 정리1. Introduction: Statistical .. 2025. 3. 17.