본문 바로가기

Computer Vision58

비디오 생성 SOTA 모델들 리서치 최근 행성을 자르는 영상 (링크)를 본적이 있다. 이외에도 온갖것을 자르는 영상이 있어서 신기했다. 그래서 비디오 생성 모델들은 제대로 공부하거나 정리한 적이 없다는걸 깨닫고 이 참에 최신 모델들을 정리해보았다. 직접 찾아보기도 하고 허깅페이스의 블로그 글 State of open video generation models in Diffusers (링크)의 도움을 받았다. 우선 제일 유명한건 OpenAI의 Sora인데 이를 공개한 오픈 모델도 있다. Open ModelsOpenAI의 Open Sora: Github 링크Alibaba에서 만든 Wan 2.2: Github 링크Lightricks의 LTX-Video: Github 링크GenmoAI의 Mochi: Github 링크 Tencent의 Hun.. 2025. 8. 11.
Stable Diffusion (2022) 논문 리뷰 Stable Diffusion의 논문 제목은 High-Resolution Image Synthesis with Latent Diffusion Models다. (링크) 저자는 Robin Rombach, Andreas Blattmann, Dominik Lorenz, Patrick Esser, Björn Ommer다. 논문 Github: 링크 Stable Diffusion Web UI Gihub: 링크 Stable Diffusion은 전에 헤어 스타일 생성 하는데 Stable Diffusion Web UI를 써본적이 있어서 잠깐 봤던 모델인데 논문을 보면서 다시 정리해본다. 그때 Control Net을 썼는데 이 모델도 리뷰 해야겠다. Abstract이미지 형성 과정을 denoising autoencoder.. 2025. 7. 2.
Diffusion Model 기본 내용 정리 Diffision Model에은 아래 레퍼런스에 나온 블로그와 CVPR 2022의 Tutorial on Diffusion Model (링크)에 기반해서 간략하게 설명한다. 주로 DDPM (Denoising Diffusion Probabilistic Models) 모델 (링크) 에 근거하여 설명한다. Diffusion Model은 원본 데이터에 단계별로 noise를 추가하는 과정인 forward diffusion process와,최종 noise에서 단계적으로 noise를 제거하여 원래 데이터로 복원하는 reverse denoising process 과정으로 구성된다. Forward Diffusion Process 순전파는 원본 이미지인 $x_0$에 노이즈를 추가해서 Noise $x_T$을 만드는 과.. 2025. 7. 2.
VAE 정리 생성 모델의 초기 형태인 Variational AutoEncoder (VAE)를 간단하게 정리해본다. DALL-E 등의 생성 모델들에서 이산화된 VAE를 많이 쓰길래 그 기반이 되는 VAE를 복습할 겸 해서 정리한다. VAE의 구성요소는 아래와 같다. 1. Observation, 관측된 데이터 $x$. 데이터 집합 $D$. 2. Latent variables, 잠재 변수 $z$ 3. Stochastic Encoder 함수 $q_{\psi}(z | x)$는 주어진 관측 데이터로부터 latent space로 매핑하는 함수다.이는 Inference Model이라고 한다. 이를 통해서 다루기 어려운 함수인 $p_{\theta} ( z | x)$를 근사한다. 그리고 $p_{\theta } ( z | x.. 2025. 7. 2.
RT-DETR (2024) 논문 리뷰 RT-DETR 논문 제목은 DETRs Beat YOLOs on Real-time Object Detection다. (링크) 저자들은 Yian Zhao, Wenyu Lv, Shangliang Xu, Jinman Wei, Guanzhong Wang, Qingqing Dang, Yi Liu, Jie Chen다. Github: 링크 Real-time object detection의 대표적인 모델인 YOLO 시리즈를 트랜스포머 구조의 모델로 더 좋은 성능을 거둔 논문이다. AbstractYOLO 시리즈는 속도와 정확도 간의 합리적인 trade-off으로 인해 실시간 객체 탐지에서 가장 널리 사용되는 프레임워크가 되었다. 그러나 본 연구에서는 YOLO의 속도와 정확도가 NMS의 부정적인 영향을 받는다는 것을 발견했.. 2025. 6. 24.
RepVGG (2021) 논문 리뷰 RepVGG 논문 제목은 RepVGG: Making VGG-style ConvNets Great Again다. (링크) 저자들은 Xiaohan Ding, Xiangyu Zhang, Ningning Ma, Jungong Han, Guiguang Ding, Jian Sun 다. Github: 링크 YOLOv6 부터 해서 계속해서 RepBlock이나 RepConv가 나오길래 한 번 각 잡고 봐야겠다 싶어서 리뷰하는 논문이다. AbstractVGG와 비슷한 구조는 3 x 3 conv와 ReLU를 쌓은 구조다. 트레이닝 때와 추론 때의 아키텍처를 분리하는 것을 re-parameterization 기법이라고 하며 이러한 모델을 RepVGG라고 한다. ImageNet에 적용하여 일반적인 모델과 견줄만한 성능이면서도.. 2025. 6. 24.