본문 바로가기

ComputerVision63

Stable Diffusion (2022) 논문 리뷰 Stable Diffusion의 논문 제목은 High-Resolution Image Synthesis with Latent Diffusion Models다. (링크) 저자는 Robin Rombach, Andreas Blattmann, Dominik Lorenz, Patrick Esser, Björn Ommer다. 논문 Github: 링크 Stable Diffusion Web UI Gihub: 링크 Stable Diffusion은 전에 헤어 스타일 생성 하는데 Stable Diffusion Web UI를 써본적이 있어서 잠깐 봤던 모델인데 논문을 보면서 다시 정리해본다. 그때 Control Net을 썼는데 이 모델도 리뷰 해야겠다. Abstract이미지 형성 과정을 denoising autoencoder.. 2025. 7. 2.
Diffusion Model 기본 내용 정리 Diffision Model에은 아래 레퍼런스에 나온 블로그와 CVPR 2022의 Tutorial on Diffusion Model (링크)에 기반해서 간략하게 설명한다. 주로 DDPM (Denoising Diffusion Probabilistic Models) 모델 (링크) 에 근거하여 설명한다. Diffusion Model은 원본 데이터에 단계별로 noise를 추가하는 과정인 forward diffusion process와,최종 noise에서 단계적으로 noise를 제거하여 원래 데이터로 복원하는 reverse denoising process 과정으로 구성된다. Forward Diffusion Process 순전파는 원본 이미지인 $x_0$에 노이즈를 추가해서 Noise $x_T$을 만드는 과.. 2025. 7. 2.
RT-DETR (2024) 논문 리뷰 RT-DETR 논문 제목은 DETRs Beat YOLOs on Real-time Object Detection다. (링크) 저자들은 Yian Zhao, Wenyu Lv, Shangliang Xu, Jinman Wei, Guanzhong Wang, Qingqing Dang, Yi Liu, Jie Chen다. Github: 링크 Real-time object detection의 대표적인 모델인 YOLO 시리즈를 트랜스포머 구조의 모델로 더 좋은 성능을 거둔 논문이다. AbstractYOLO 시리즈는 속도와 정확도 간의 합리적인 trade-off으로 인해 실시간 객체 탐지에서 가장 널리 사용되는 프레임워크가 되었다. 그러나 본 연구에서는 YOLO의 속도와 정확도가 NMS의 부정적인 영향을 받는다는 것을 발견했.. 2025. 6. 24.
RepVGG (2021) 논문 리뷰 RepVGG 논문 제목은 RepVGG: Making VGG-style ConvNets Great Again다. (링크) 저자들은 Xiaohan Ding, Xiangyu Zhang, Ningning Ma, Jungong Han, Guiguang Ding, Jian Sun 다. Github: 링크 YOLOv6 부터 해서 계속해서 RepBlock이나 RepConv가 나오길래 한 번 각 잡고 봐야겠다 싶어서 리뷰하는 논문이다. AbstractVGG와 비슷한 구조는 3 x 3 conv와 ReLU를 쌓은 구조다. 트레이닝 때와 추론 때의 아키텍처를 분리하는 것을 re-parameterization 기법이라고 하며 이러한 모델을 RepVGG라고 한다. ImageNet에 적용하여 일반적인 모델과 견줄만한 성능이면서도.. 2025. 6. 24.
YOLOv7 (2022) 논문 리뷰 YOLOv7의 논문 제목은 YOLOv7: Trainable bag-of-freebies sets new state-of-the-art for real-time object detectors다. (링크) 저자들은 Chien-Yao Wang, Alexey Bochkovskiy, Hong-Yuan Mark Liao다. Github: 링크 3. Architecture 3.1. Extended efficient layer aggregation networks 최근 대부분의 문헌들에서 효율적인 아키텍처를 구성할 때 고려하는 사안들은 파라미터의 수, 계산량, 계산 밀집도다. 여러 논문들을 보면 Input / output channel ratio, 아키텍처 브랜치의 수, 추론 속도에서의 element-wise o.. 2025. 6. 24.
PP-YOLOE (2022) 논문 리뷰 PP-YOLOE의 논문 제목은 PP-YOLOE: An evolved version of YOLO다. (링크) 저자들은 Shangliang Xu, Xinxin Wang, Wenyu Lv, Qinyao Chang, Cheng Cui, Kaipeng Deng, Guanzhong Wang, Qingqing Dang, Shengyu Wei, Yuning Du, Baohua Lai다. Github: 링크 PP-YOLOE는 PP-YOLO v2의 개선된 버젼이다. 전반적인 구조는 아래 Figure 2와 같다. PP-YOLOE의 백본 구조는 cross stage dense connection을 사용한 CSPNet의 개선된 버젼인 CSPRepResNet이다. 그리고 neck에서는 Path Aggregation Net.. 2025. 6. 23.