Loading [MathJax]/jax/output/CommonHTML/jax.js
본문 바로가기

nlp18

Small Language Models: Survey, Measurements, and Insights Small Language Models: Survey, Measurements, and Insights - Zhenyan Lu et al (2024) SLM에 대해서 공부할 때 본 논문으로 LLM 서베이처럼 간략하게 키워드 중심으로 정리하되 간단한 설명도 곁들이고자 한다. 1. Overview   OPT를 포함한 SLM의 타임라인이다.     BLOOM, Phi, Gemma, Qwen, SmolLM 외에도 다양한 SLM을 이 논문을 통해서 확인했다.    2. Architectures아래에서는 전체적인 model의 구조를 KV-cache, Attention의 종류, Normalization의 종류, Activation의 종류 등을 일목요연하게 파이 차트로 정리한 그림으로 들어간다.    Attention.. 2025. 3. 17.
A Survey of Large Language Model - Wayne Xin Zhao et al (2024) A Survey of Large Language Model - Wayne Xin Zhao et al (2024) LLM에 대해서 공부할 때 전체적인 흐름을 파악하기 위해서 본 서베이 페이퍼다. 구글 스칼라에서 인용수가 2025년 3월 18일 기준 4000이 넘으며 2023년 이후 지속적으로 업데이트 되고 있는 논문이다. 특정 분야에 대해서 처음 접하거나 이미 공부한 다음 큰 틀에서 흐름을 정리하고자 할 때 유용한 것이 서베이 논문이라고 생각한다.  상기한 이유와 레퍼런스를 제외하고도 90페이지가 넘는 분량이기도 해서 전체적인 개요와 키워드, 그림 및 표 몇가지만 정리하고자 한다. 자세한 내용은 서베이 논문과 레퍼런스를 참고하면 좋겠다.  논문 목차 정리1. Introduction: Statistical .. 2025. 3. 17.
Instruct learning, fine tuning, and T5 def preprocess_data(example): # Instruction, Input, Output 가져오기 instruction = example["instruction"] input_text = example["input"] output_text = example["output"] # Prompt 생성 prompt = f"Instruction: {instruction}\nInput: {input_text}\nOutput:" target = output_text # Prompt와 Target 텍스트를 각각 토큰화 tokenized_input = tokenizer(prompt, truncation=True, max_length=512, padd.. 2025. 1. 28.
LLM 개인용 유료 구독 가격 비용 정리 2024년 8월 2일 기준이다.2025년 2월 5일 기준으로 수정. 여러 업체의 LLM이 있지만 몇가지만 살펴본다. OpenAI, Google, MS, Anthropic의 LLM들이다.  회사이름유료 이름가격 (월 구독비)OpenAIChatGPTPlus20OpenAIChatGPTPro 200GoogleGeminiAdvanced29000원MicrosoftCopilotPro29000원AnthropicClaudePro$ 20  엔터프라이즈용은 아니며 모두 개인용 구독 가격이다.   ChatGPT, Claude, Gemini 모두 무료도 그럭저럭 쓸만해서 개인적인 용도면 굳이 결제를 해야하나 싶다. 물론, 써보면 유료가 훨씬 더 좋긴아서 체감이 크긴 하다. 거기다가 Claude나 ChatGPT나 무료는 하.. 2024. 8. 2.
GPT (2018) 논문 리뷰 GPT-1이 제시된 논문은 Improving Language Understanding by Generative Pre-Training라는 이름이다. 가장 유명한 Decoder only 모델 중 하나이며 OpenAI의 GPT 시리즈 중 첫 모델인 기념비적인 논문이다. (링크) 해당 논문의 저자는 Alec Radford, Karthik Narasimhan, Tim Salimans, Ilya Sutskever다.   Abstract최근 NLU (Natural Language Understanding)은 넓은 범위의 다양한 태스크가 존재한다. Textual entailment, question answering, semantic similarity assessment, document classification.. 2024. 7. 22.
BERT (2018) 논문 리뷰 BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding는 가장 유명한 Encoder only 모델 중 하나다. (링크) 해당 논문의 저자는 Jacob Devlin, Ming-Wei Chang, Kenton Lee, Kristina Toutanova다.  AbstractBERT는 Bidirectional Encoder Representations from Transformers의 약자다. 양방향의 왼쪽에서 오른쪽 방향의 컨텍스트와 오른쪽에서 왼쪽 방향의 컨텍스트를 동시에 활용한다. 마지막 output layer만 추가함으로써 다양한 태스크에 대해서 SOTA를 달성한다. GLUE의 MultiNLI에서 accuracy 8.. 2024. 6. 25.