본문 바로가기
Computer Vision/Video

비디오 생성 SOTA 모델들 리서치

by 아르카눔 2025. 8. 11.

 

최근 행성을 자르는 영상 (링크)를 본적이 있다. 이외에도 온갖것을 자르는 영상이 있어서 신기했다. 

 

그래서 비디오 생성 모델들은 제대로 공부하거나 정리한 적이 없다는걸 깨닫고 이 참에 최신 모델들을 정리해보았다. 

 

 

직접 찾아보기도 하고 허깅페이스의 블로그 글 State of open video generation models in Diffusers (링크)의 도움을 받았다.

 

우선 제일 유명한건 OpenAI의 Sora인데 이를 공개한 오픈 모델도 있다.

 

 

Open Models

  • OpenAI의 Open Sora: Github 링크
  • Alibaba에서 만든 Wan 2.2: Github 링크
  • Lightricks의 LTX-Video: Github 링크
  • GenmoAI의 Mochi: Github 링크
  • Tencent의 HunyuanVideo: Github 링크
  • Stability-AI의 Stable Video 4D 2.0 (SV4D 2.0) : Github 링크
  • THUDM의 CogVideoX: Github 링크
  • RhymesAI의 Allegro: Github 링크

 

ConfyUI: Github 링크

Diffusion Model을 보다 쉽게 사용할 수 있게 만들어주는 UI다 

 

Open Sora의 이해에 도움이 될 듯 하며 다음 두 글을 첨부한다.

 

  • OpenAI의 Sora 모델 작동 원리에 대한 GeekNews 글 (링크)
  • 파이토치코리아의 Open Sora 글 (링크)

 

 

State of open video generation models in Diffusers (링크)에는 Closed 모델들도 소개하고 있다. 이를 정리하면 다음과 같다.

 

 

Closed Models

 

  • Google의 Veo 3 (블로그에는 2지만 지금은 3가 나왔다.)
  • Meta의 Movie Gen
  • KlingAI의 Kling
  • RunwayML의 Gen 3 Alpha
  • Pika Labs의 Pika 2.0
  • Haliluo의 MiniMax

 

 

Stable Diffusion은 Web UI를 통해서 비교적 간단히 생성할 수 있었는데 비디오도 오픈 모델을 이용해서 한 번 시도해봐야겠다.