Computer Vision57 Stable Diffusion (2022) 논문 리뷰 Stable Diffusion의 논문 제목은 High-Resolution Image Synthesis with Latent Diffusion Models다. (링크) 저자는 Robin Rombach, Andreas Blattmann, Dominik Lorenz, Patrick Esser, Björn Ommer다. 논문 Github: 링크 Stable Diffusion Web UI Gihub: 링크 Stable Diffusion은 전에 헤어 스타일 생성 하는데 Stable Diffusion Web UI를 써본적이 있어서 잠깐 봤던 모델인데 논문을 보면서 다시 정리해본다. 그때 Control Net을 썼는데 이 모델도 리뷰 해야겠다. Abstract이미지 형성 과정을 denoising autoencoder.. 2025. 7. 2. Diffusion Model 기본 내용 정리 Diffision Model에은 아래 레퍼런스에 나온 블로그와 CVPR 2022의 Tutorial on Diffusion Model (링크)에 기반해서 간략하게 설명한다. 주로 DDPM (Denoising Diffusion Probabilistic Models) 모델 (링크) 에 근거하여 설명한다. Diffusion Model은 원본 데이터에 단계별로 noise를 추가하는 과정인 forward diffusion process와,최종 noise에서 단계적으로 noise를 제거하여 원래 데이터로 복원하는 reverse denoising process 과정으로 구성된다. Forward Diffusion Process 순전파는 원본 이미지인 $x_0$에 노이즈를 추가해서 Noise $x_T$을 만드는 과.. 2025. 7. 2. VAE 정리 생성 모델의 초기 형태인 Variational AutoEncoder (VAE)를 간단하게 정리해본다. DALL-E 등의 생성 모델들에서 이산화된 VAE를 많이 쓰길래 그 기반이 되는 VAE를 복습할 겸 해서 정리한다. VAE의 구성요소는 아래와 같다. 1. Observation, 관측된 데이터 $x$. 데이터 집합 $D$. 2. Latent variables, 잠재 변수 $z$ 3. Stochastic Encoder 함수 $q_{\psi}(z | x)$는 주어진 관측 데이터로부터 latent space로 매핑하는 함수다.이는 Inference Model이라고 한다. 이를 통해서 다루기 어려운 함수인 $p_{\theta} ( z | x)$를 근사한다. 그리고 $p_{\theta } ( z | x.. 2025. 7. 2. RT-DETR (2024) 논문 리뷰 RT-DETR 논문 제목은 DETRs Beat YOLOs on Real-time Object Detection다. (링크) 저자들은 Yian Zhao, Wenyu Lv, Shangliang Xu, Jinman Wei, Guanzhong Wang, Qingqing Dang, Yi Liu, Jie Chen다. Github: 링크 Real-time object detection의 대표적인 모델인 YOLO 시리즈를 트랜스포머 구조의 모델로 더 좋은 성능을 거둔 논문이다. AbstractYOLO 시리즈는 속도와 정확도 간의 합리적인 trade-off으로 인해 실시간 객체 탐지에서 가장 널리 사용되는 프레임워크가 되었다. 그러나 본 연구에서는 YOLO의 속도와 정확도가 NMS의 부정적인 영향을 받는다는 것을 발견했.. 2025. 6. 24. RepVGG (2021) 논문 리뷰 RepVGG 논문 제목은 RepVGG: Making VGG-style ConvNets Great Again다. (링크) 저자들은 Xiaohan Ding, Xiangyu Zhang, Ningning Ma, Jungong Han, Guiguang Ding, Jian Sun 다. Github: 링크 YOLOv6 부터 해서 계속해서 RepBlock이나 RepConv가 나오길래 한 번 각 잡고 봐야겠다 싶어서 리뷰하는 논문이다. AbstractVGG와 비슷한 구조는 3 x 3 conv와 ReLU를 쌓은 구조다. 트레이닝 때와 추론 때의 아키텍처를 분리하는 것을 re-parameterization 기법이라고 하며 이러한 모델을 RepVGG라고 한다. ImageNet에 적용하여 일반적인 모델과 견줄만한 성능이면서도.. 2025. 6. 24. YOLOv7 (2022) 논문 리뷰 YOLOv7의 논문 제목은 YOLOv7: Trainable bag-of-freebies sets new state-of-the-art for real-time object detectors다. (링크) 저자들은 Chien-Yao Wang, Alexey Bochkovskiy, Hong-Yuan Mark Liao다. Github: 링크 3. Architecture 3.1. Extended efficient layer aggregation networks 최근 대부분의 문헌들에서 효율적인 아키텍처를 구성할 때 고려하는 사안들은 파라미터의 수, 계산량, 계산 밀집도다. 여러 논문들을 보면 Input / output channel ratio, 아키텍처 브랜치의 수, 추론 속도에서의 element-wise o.. 2025. 6. 24. 이전 1 2 3 4 ··· 10 다음