본문 바로가기

nlp71

Sentence-BERT (2019) 논문 리뷰 Sentence-BERT 혹은 SBERT 모델이 나온 논문 이름은 Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks다. (링크) 저자는 Nils Reimers, Iryna Gurevych다.  요즘은 document나 sentence embedding을 구할 때 API로 OpenAI의 embeddings를 많이 사용하겠지만, 예전에는 문장 레벨로 embedding을 도출할 때 많이 쓰던 알고리즘이 SBERT라서 공부했던 기억이 난다.  AbstractBERT과 RoBERTa는 sentence-pair regression tasks; semantic textual similarity (STS)와 같은 태스크에서 SOTA를 달성했다. 하지만 두 .. 2025. 4. 9.
Small Language Models: Survey, Measurements, and Insights Small Language Models: Survey, Measurements, and Insights - Zhenyan Lu et al (2024) SLM에 대해서 공부할 때 본 논문으로 LLM 서베이처럼 간략하게 키워드 중심으로 정리하되 간단한 설명도 곁들이고자 한다. 1. Overview   OPT를 포함한 SLM의 타임라인이다.     BLOOM, Phi, Gemma, Qwen, SmolLM 외에도 다양한 SLM을 이 논문을 통해서 확인했다.    2. Architectures아래에서는 전체적인 model의 구조를 KV-cache, Attention의 종류, Normalization의 종류, Activation의 종류 등을 일목요연하게 파이 차트로 정리한 그림으로 들어간다.    Attention.. 2025. 3. 17.
A Survey of Large Language Model - Wayne Xin Zhao et al (2024) A Survey of Large Language Model - Wayne Xin Zhao et al (2024) LLM에 대해서 공부할 때 전체적인 흐름을 파악하기 위해서 본 서베이 페이퍼다. 구글 스칼라에서 인용수가 2025년 3월 18일 기준 4000이 넘으며 2023년 이후 지속적으로 업데이트 되고 있는 논문이다. 특정 분야에 대해서 처음 접하거나 이미 공부한 다음 큰 틀에서 흐름을 정리하고자 할 때 유용한 것이 서베이 논문이라고 생각한다.  상기한 이유와 레퍼런스를 제외하고도 90페이지가 넘는 분량이기도 해서 전체적인 개요와 키워드, 그림 및 표 몇가지만 정리하고자 한다. 자세한 내용은 서베이 논문과 레퍼런스를 참고하면 좋겠다.  논문 목차 정리1. Introduction: Statistical .. 2025. 3. 17.
Instruct learning, fine tuning, and T5 def preprocess_data(example): # Instruction, Input, Output 가져오기 instruction = example["instruction"] input_text = example["input"] output_text = example["output"] # Prompt 생성 prompt = f"Instruction: {instruction}\nInput: {input_text}\nOutput:" target = output_text # Prompt와 Target 텍스트를 각각 토큰화 tokenized_input = tokenizer(prompt, truncation=True, max_length=512, padd.. 2025. 1. 28.
RAG (2020) 논문 리뷰 RAG는 Retrieval-Augmented Generation 의 약자로 논문의 이름은 Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks다. (링크) 저자는 Patrick Lewis, Ethan Perez, Aleksandra Piktus, Fabio Petroni, Vladimir Karpukhin, Naman Goyal, Heinrich Küttler, Mike Lewis, Wen-tau Yih, Tim Rocktäschel, Sebastian Riedel, Douwe Kiela다. 지금의 RAG는 주로 LLM의 답변 생성에 있어서 문맥 context로 주어지는데 본래의 논문에서는 RAG를 활용하여 모델 자체를 파인 튜닝 방법.. 2025. 1. 11.
T5 (2019) 논문 리뷰 T5 (Text-to-Text Transfer Transformer)의 논문 이름은 Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer다. (링크) 저자는 Colin Raffel, Noam Shazeer, Adam Roberts, Katherine Lee, Sharan Narang, Michael Matena, Yangqi Zhou, Wei Li, Peter J. Liu다. T5는 2017년에 나온 Transformer를 기본으로 한 Encoder-Decoder 모델로 새로운 학습 데이터를 도입하고 transfer learning의 측면에서 데이터에 text-to-text라는 개념을 도입하여 학습한 모델이다.. 2024. 11. 8.