본문 바로가기

nlp66

Enhancing RAG performance with smart chunking strategies IBM에서 Enhancing RAG performance with smart chunking strategies란 글 (링크)을 올렸길래 유용해 보여서 러프하게 번역하고 간단한 코멘트를 남겨 본다. 그리고 여기서 Contextual Compression이란 개념이 나오는데 관련된 LangChain의 내용도 간략하게 정리한다. Chunking의 중요성토큰 길이 제한 내에서 컨텍스트 유지: LLM에는 토큰의 길이에 제약이 있으므로, 청킹을 통해 이러한 제한 내에서 관련성 있고 완전한 정보가 제공을 보장한다.컨텍스트 관계 유지: 잘 구성된 청크는 정보의 논리적 흐름을 유지하여 표현과 이해를 향상시킨다.확장성 향상: 청킹을 통해 대규모 데이터세트를 효율적으로 처리하여 인덱싱 및 검색을 더욱 쉽게 관리할 수 .. 2025. 5. 10.
LLM으로 테이블과 차트 생성 ChartLLama (논문 링크)와 LIDA (논문 링크)를 보면 파이썬 코드로 matplotlib를 통해서 생성하는 것을 확인할 수 있다. 올해 나온 ChartCoder라는 모델 (논문 링크)도 마찬가지로 테이블과 그림을 코드를 이용해서 그린다. ChartLLama논문: 링크Github: 링크 LIDA논문: 링크Github: 링크홈페이지: 링크 ChartCoder논문: 링크Github: 링크 실습한 코드는 본인의 Github (링크)에 업로드 했다. Table 생성 프롬프트 from langchain_openai import ChatOpenAIfrom langchain.prompts import PromptTemplate, ChatPromptTemplate # OpenAI LLM Wrappers .. 2025. 5. 8.
A Survey of Prompt Engineering Methods in LLMs for Differenct NLP Tasks (2024) 논문 리뷰 A Survey of Prompt Engineering Methods in LLMs for Differenct NLP Tasks 논문 (링크) 저자는 Shubham Vatsal와 Harsh Dubey 두 사람이다. 서베이 논문인데 여러가지 prompting 방법들의 목록을 간단하게 정리하고 표를 올리고자 한다. Prompt Engineering Techniques Basic / Standard / Vanilla PromptingChain-of-Thoguht (CoT)Self-ConsistencyEnsemble Refinement (ER)Automatic Chain-of-Thoguht (Auto CoT)Complex CoTProgram-of-Thoughts (PoT)Least-to-MostChain-o.. 2025. 5. 6.
Embedding Models 문서들의 유사도를 측정하는 일은 RAG 등의 태스크를 수행할 때 중요하다. API를 가져와서 사용할 땐 비교적 쉽게 설정이 가능하다. 하지만 OpenAI의 "text-embedding-ada-002" 같은 embedding 모델을 가져와 쓰는게 아니라 로컬로 돌리면 어떨까해서 찾아보았다. 임베딩에 대한 별개의 모델들도 존재할 뿐만 아니라 리더보드도 존재하는걸 알아서 몇가지 임베딩 모델과 관련된 참조 사이트들을 정리하고자 한다. 2025.05.04 기준이다. Leaderboard 리더보드Massive Text Embedding Benchmark (MTEB):Github: 링크HF Leaderboard: 링크 KoMTEB: Github: 링크 Models from APIsOpenAI 임베딩 모델을 sm.. 2025. 5. 4.
FinGPT (2023) 논문 리뷰 FinGPT는 금융을 목적으로한 LLM으로 논문 제목은 FinGPT: Open-Source Financial Large Language Models다. (링크) 저자는 Hongyang Yang, Xiao-Yang Liu, Christina Dan Wang다. BloombergGPT와는 다르게 오픈소스 Financial LLM이다. Main Github: 링크 Data Github: 링크Benchmark Github: 링크RAG Github: 링크 IntroductionFinGPT에는 다음의 컨트리뷰션이 있다. 1. Democritization: FinGPT는 오픈 소스 프레임워크이며 financial data와 FinLLM을 모두 공적으로 공개했다. 2. Data-centric approach:데이.. 2025. 5. 2.
BloombergGPT (2023) 논문 리뷰 BloombergGPT는 금융을 목적으로한 LLM으로 논문 제목은 BloombergGPT: A Large Language Model for Finance다. (링크) 저자는 Shijie Wu, Ozan Irsoy, Steven Lu, Vadim Dabravolski, Mark Dredze, Sebastian Gehrmann, Prabhanjan Kambadur, David Rosenberg, Gideon Mann다. Pre-training 부터 직접 학습시킨 LLM으로 50B를 가진 제법 큰 모델이다.Base 모델로는 Open LLM인 BLOOM (블로그 링크)을 사용했다. Abstract금융 기술 영역에서의 NLP 분야의 사용은 방대하고 복잡하다. Sentiment analysis 부터 name.. 2025. 5. 2.