본문 바로가기

Deep Learning10

GPT-OSS와 딥마인드의 월드 모델 Genie 3 GPT-OSS OpenAI가 ClosedAI로서 행동하는게 아니라 진짜로 "오픈" 소스로 무려 아파치 2.0으로 GPT-OSS라는 MoE LLM 모델을 공개했다. (공식 페이지 링크, Huggingface: 링크, GeekNews 링크) 120B의 모델 중에서 실제 active parameters는 고작 5B라서 굉장히 놀라웠다. 전문가의 수는 128인데, 이는 하나의 전문가가 1B 정도의 크기란 이야기라서 생각보다 개별 전문가의 파라미터 크기는 작다 싶었다. 전에 Mixtral 논문을 공부하고 블로그에 포스트 (링크)을 했는데, 그때 MoE를 공부하길 잘했다 싶다. Genie 3 그런데, 이 보다 더 나에게 신기하게 다가온건 바로 구글 딥마인드의 월드 모델이었다. 월드 모델이라는 이름 그대로 실제.. 2025. 8. 7.
ODIN (2018) 논문 리뷰 ODIN 논문의 제목은 Enhancing The Reliability of Out-of-distribution Image Detection in Neural Networks다. (링크) 저자는 Shiyu Liang, Yixuan Li, R. Srikant다. ICLR 2018에 게재된 논문으로 Out-of-Distribution (OOD) 문제를 다루는 논문이다. OOD는 모델이 배우지 않은 색다른 데이터가 들어왔을 때의 문제를 다루는 분야다. 딥러닝 모델의 신뢰성과 안전성이 중요한 자율주행과 같은 분야에서 활용한다고 알고있다. Abstract신경망에서의 OOD (out-of-distribution) 이미지 문제를 다룬다. 저자들은 ODIN이라 불리는 간단하면서 효율적인 방법을 소개하는데, 사전 학습된.. 2025. 7. 25.
Quantization 정리 Quantization 양자화는 모델 경량화 방법 중 하나다. FP32 형식의 데이터를 INT 8처럼 더 작은 비트수의 정수 데이터 형식으로 근사하여 모델의 크기를 줄이면서도 정확도를 최대한 유지한다. 이를 통해 더 작은 모델로 더 작은 리소스를 사용해서 비슷한 결과를 달성할 수 있게 된다. Quantization 예시. From FP32 To INT 8 Nvidia의 블로그 (링크)를 보면 32 bit FP를 8 bit INT로 근사하는 과정을 보여준다. 아래 Figure 1이 그 과정을 보여준다. 우선 FP32는 [ $-3.4e38, 3.40e38$ ]의 범위를 가진다. 반면에 INT8은 [ $-128, 127$ ]의 범위를 가진다. 이때 표현 가능한 숫자의 구간을 동적 범위 dynamic-rang.. 2025. 5. 20.
KAN (2024) 논문 리뷰 Kolmogorov-Arnold Networks는 원래의 초기 논문과 2.0의 2가지 논문이 있다. 여기서는 첫 번째 논문인 KAN: Kolmogorov-Arnold Networks (링크)을 중심으로 하고, 2.0은 간략하게만 다룬다. KAN 오리지널 논문의 저자는 Ziming Liu, Yixuan Wang, Sachin Vaidya, Fabian Ruehle, James Halverson, Marin Soljačić, Thomas Y. Hou, Max Tegmark다. KAN 2.0의 논문 제목은 KAN 2.0: Kolmogorov-Arnold Networks Meet Science (링크)이고, 저자는 Ziming Liu, Pingchuan Ma, Yixuan Wang, Wojciech Matus.. 2025. 5. 15.
Floating-point Number와 Mixed Precision 컴퓨터가 숫자를 저장하는 방법 중 하나인 Floating point number랑 mixed precision을 블로그에 정리한적이 없길래 간단하게 정리한다. mantissa는 기억이 나는데 exponent 용어가 기억이 안나서 순간 당황했다. Nvidia에서 퍼온 그림인데 위와 같이 float 자료형은 Sign, Range (Exponent), 그리고 Precision (Mantissa)으로 구성된다. sign은 말 그대로 양수냐 음수냐의 부호를 나타내고, range (exponent)에서 숫자의 자리수를 표기하고, precision (mantissa)에서 숫자의 정확도를 표현한다. $(-1)^{sign}$ * $2^E$ * M 의 형태로 숫자를 표현한다. 이때 M이 크면 클수록 비트 수가 많.. 2025. 4. 29.
Meta, Few-shot, Zero-shot, Active Learning 1. Meta Learning (메타 학습)개념: 메타 학습은 '학습하는 방법을 학습'하는 것을 목표로 합니다. 일반적으로는 여러 작업에 걸쳐 학습을 반복하면서, 새로운 작업에서도 빠르게 적응할 수 있는 모델을 만드는 기법입니다.방법: 메타 학습에서는 모델이 주어진 작업의 학습 방식을 학습하여, 새로운 작업에서 적은 데이터만으로도 빠르게 성능을 향상시킬 수 있도록 합니다. 대표적인 메타 학습 알고리즘으로는 MAML(Model-Agnostic Meta-Learning)이 있습니다.장점: 메타 학습은 여러 작업에 대한 경험을 바탕으로 새로운 작업에 더 잘 적응할 수 있게 해줍니다.단점: 메타 학습을 적용하기 위해서는 여러 다양한 작업에 대한 학습 데이터가 필요하며, 학습 시간이 오래 걸릴 수 있습니다.2. .. 2024. 10. 25.