본문 바로가기

NLP/RAG8

RAG - 문서 파싱과 이미지 파싱 Geek News에서 RAG의 구체적인 정보 추출 과정에 대한 글이 있길래 한 번 훑어보고 일부만 퍼왔다. RAG에서 문서 파싱은 필요 없음: 이미지만 사용하세요 (링크) 원문은 morpik의 Don't bother parsing: Just use images for RAG (링크)다. 복잡한 문서 파싱의 한계와 RAG의 고난차트, 도표, 표가 혼합된 복잡한 PDF 문서에서 정보를 추출하려 할 때, OCR과 파싱 파이프라인이 원하는 정보를 자주 손실하는 문제 발생중첩 표, 중요한 도표, 주석이 많은 기술 문서, 심지어 텍스트가 없는 매뉴얼 등 실제 상황에서 기존 파이프라인의 한계 체감기존 파이프라인의 단계:PDF에 OCR 적용 (숫자나 문자를 잘못 읽을 수 있음)레이아웃 감지 모델로 표/도표 구분 시도.. 2025. 8. 4.
Enhancing RAG performance with smart chunking strategies IBM에서 Enhancing RAG performance with smart chunking strategies란 글 (링크)을 올렸길래 유용해 보여서 러프하게 번역하고 간단한 코멘트를 남겨 본다. 그리고 여기서 Contextual Compression이란 개념이 나오는데 관련된 LangChain의 내용도 간략하게 정리한다. Chunking의 중요성토큰 길이 제한 내에서 컨텍스트 유지: LLM에는 토큰의 길이에 제약이 있으므로, 청킹을 통해 이러한 제한 내에서 관련성 있고 완전한 정보가 제공을 보장한다.컨텍스트 관계 유지: 잘 구성된 청크는 정보의 논리적 흐름을 유지하여 표현과 이해를 향상시킨다.확장성 향상: 청킹을 통해 대규모 데이터세트를 효율적으로 처리하여 인덱싱 및 검색을 더욱 쉽게 관리할 수 .. 2025. 5. 10.
TAG (2024) 논문 리뷰 TAG 방법론의 논문 제목은 Text2SQL is Not Enough: Unifying AI and Databases with TAG다. (링크) 저자는 Asim Biswal, Liana Patel, Siddarth Jha, Amog Kamsetty, Shu Liu, Joseph E. Gonzalez, Carlos Guestrin, Matei Zaharia다. Github: 링크 SQL과 RDB의 테이블 형식의 데이터를 어떻게 잘 retrieve할까에 대한 논문이다. Abstract 데이터베이스에서 자연어 질문을 처리하는 AI 시스템은 엄청난 가치를 창출하리라고 기대된다. 사용자는 언어모델 (LM) 의 강력한 추론 및 지식 기능과 데이터 관리 시스템의 확장 가능한 연산 능력을 동시에 활용할 수 있다.. 2025. 4. 27.
Self-RAG (2023) 논문 리뷰 Self-RAG: Learning to Retrieve, Generate, and Critique through Self-Reflection 논문이다. (링크) 저자는 Akari Asai, Zeqiu Wu, Yizhong Wang, Avirup Sil, Hannaneh Hajishirzi다. 스스로를 평가하면서 RAG를 수행하는 방법론이다. 전에 블로그에 쓴 글 (링크)에서 공부하면서 Self-RAG를 살짝 살펴보았지만 논문을 제대로 본적은 없어서 정리할 겸 리뷰한다. AbstractRAG는 factuality 사실성의 측면에서 도움이 되었지만 indiscriminately 무차별적인 retrieving 검색과 고정된 수의 검색된 passages 구절의 수, 검색된 구절의 연관성 등이 LM's v.. 2025. 4. 17.
Self-RAG, RAGAS 그리고 RAG Evaluation by LLM Self-RAG의 github 그리고 논문 링크 그리고 RAGAS의 github (링크), 도큐먼트 (링크), 논문 (링크), 그리고 테디 노트의 Self-RAG과 RAGAS, 그리고 기본 LangGraph 생성을 보다가 궁금해져서 프롬프트를 정리해보았다. Self-RAG과 RAGAS 모두 RAG를 평가함에 있어서 LLM as a Judge 논문에 상당 부분 근거하고 있기 때문에 LLM이 평가하는 근거가 되는 프롬프트가 중요하기 때문이다.Huggingface에서도 LLM as a Judge에 대한 방법을 링크에서 소개하고 있다. RAG Evaluation에서 사용하는 프롬프트는 이 링크에 나와있다. yes, no 형식의 간단한 방식과 구체적인 score를 내는 방식의 장단점도 생각해보았다. 평가 지표별.. 2025. 4. 2.
RAGAS의 metric별 required columns RAGAS는 Retrieval Augmented Generation Assessment의 약자로 RAG의 성능을 평가하기 위한 프레임워크다. 깃허브: 링크도큐먼트: 링크논문: 링크 RAGAS의 평가 함수의 상당히 많은 부분은 LLM as a Judge를 기반으로 동작한다. 따라서 OpenAI, Google Cloud, Claude, AWS, Azure 등등을 지원한다. 물론 LLM 없이 Context Precision을 평가하는 이런 사례도 있다.Context Recall 역시 Non LLM 방법으로 평가 가능하다.따라서 비용이나 목적 등에 맞게 사용하면 된다. RAGAS에서는 이를 Traditional NLP Metrics라고 하며 BLEU, ROUGE, Exact Match, String Pres.. 2025. 3. 28.