본문 바로가기

deeplearning21

Small Language Models: Survey, Measurements, and Insights Small Language Models: Survey, Measurements, and Insights - Zhenyan Lu et al (2024) SLM에 대해서 공부할 때 본 논문으로 LLM 서베이처럼 간략하게 키워드 중심으로 정리하되 간단한 설명도 곁들이고자 한다. 1. Overview   OPT를 포함한 SLM의 타임라인이다.     BLOOM, Phi, Gemma, Qwen, SmolLM 외에도 다양한 SLM을 이 논문을 통해서 확인했다.    2. Architectures아래에서는 전체적인 model의 구조를 KV-cache, Attention의 종류, Normalization의 종류, Activation의 종류 등을 일목요연하게 파이 차트로 정리한 그림으로 들어간다.    Attention.. 2025. 3. 17.
A Survey of Large Language Model - Wayne Xin Zhao et al (2024) A Survey of Large Language Model - Wayne Xin Zhao et al (2024) LLM에 대해서 공부할 때 전체적인 흐름을 파악하기 위해서 본 서베이 페이퍼다. 구글 스칼라에서 인용수가 2025년 3월 18일 기준 4000이 넘으며 2023년 이후 지속적으로 업데이트 되고 있는 논문이다. 특정 분야에 대해서 처음 접하거나 이미 공부한 다음 큰 틀에서 흐름을 정리하고자 할 때 유용한 것이 서베이 논문이라고 생각한다.  상기한 이유와 레퍼런스를 제외하고도 90페이지가 넘는 분량이기도 해서 전체적인 개요와 키워드, 그림 및 표 몇가지만 정리하고자 한다. 자세한 내용은 서베이 논문과 레퍼런스를 참고하면 좋겠다.  논문 목차 정리1. Introduction: Statistical .. 2025. 3. 17.
Instruct learning, fine tuning, and T5 def preprocess_data(example): # Instruction, Input, Output 가져오기 instruction = example["instruction"] input_text = example["input"] output_text = example["output"] # Prompt 생성 prompt = f"Instruction: {instruction}\nInput: {input_text}\nOutput:" target = output_text # Prompt와 Target 텍스트를 각각 토큰화 tokenized_input = tokenizer(prompt, truncation=True, max_length=512, padd.. 2025. 1. 28.
Faster R-CNN (2016) 논문 리뷰 Faster R-CNN의 논문 이름은  Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks이다. 저자는 Shaoqing Ren, Kaiming He, Ross Girshick, Jian Sun이다. (링크) Faster R-CNN은 이름에서 짐작할 수 있듯이 Fast R-CNN을 개선한 모델이다. Fast R-CNN의 저자인 Ross Girshick 도 참여한 논문이다. AbstractSOTA (최근의) object detection networks는 region proposal을 통해서 object locations의 대상을 추측한다. SPPnet이나 Fast R-CNN은 detection 과정에서의 소요 시간을 .. 2024. 4. 27.
ResNet (2016) PyTorch Implementation ResNet을 Pytorch를 활용하여 구현하고자 한다.https://arsetstudium.tistory.com/45에서 공부한 내용을 토대로 구현보면 아래와 같다. ResNet 구조는 여러가지인데 18, 34, 50, 101, 152 layers다. VGGNet처럼 ResNet도 블록 단위로 구분할 수 있다.블록단위로 구현하고 또 다양한 수의 레이어를 적용할 수 있도록 작성하고자 한다. 우선 Block을 만들기 위한 Sub-block 코드다.  Table 1에서 conv2 block에서 개별 conv2_x를 만드는 코드다. # Sub-block for 18, 34 layersclass ResNetTwoSubBlock(nn.Module): def __init__(self.. 2024. 4. 24.
ResNet (2016) 논문 리뷰 ResNet이 소개된 논문 이름은 Deep Residual Learning for Image Recognition이라는 심플한 이름이다. 저자는 Kaiming He, Xiangyu Zhang, Shaoqing Ren, Jian Sun이다. (링크)ResNet은 residual connection이 핵심인 모델이며 ILSVRC 2015 image classification에서 1등을 한 모델이다.   AbstractResidual functions을 도입해서 layers input에 reference로 작용하도록 구성했다. 충분히 이해할만한 실증적인 증거들을 보여준다. 약 152 layers를 가지고 있으며, 이는 VGGNet보다 8배 더 깊은 구조를 지니지만 complexity는 더 낮다. ILSVRC .. 2024. 4. 15.