최근 행성을 자르는 영상 (링크)를 본적이 있다. 이외에도 온갖것을 자르는 영상이 있어서 신기했다.
그래서 비디오 생성 모델들은 제대로 공부하거나 정리한 적이 없다는걸 깨닫고 이 참에 최신 모델들을 정리해보았다.
직접 찾아보기도 하고 허깅페이스의 블로그 글 State of open video generation models in Diffusers (링크)의 도움을 받았다.
우선 제일 유명한건 OpenAI의 Sora인데 이를 공개한 오픈 모델도 있다.
Open Models
- OpenAI의 Open Sora: Github 링크
- Alibaba에서 만든 Wan 2.2: Github 링크
- Lightricks의 LTX-Video: Github 링크
- GenmoAI의 Mochi: Github 링크
- Tencent의 HunyuanVideo: Github 링크
- Stability-AI의 Stable Video 4D 2.0 (SV4D 2.0) : Github 링크
- THUDM의 CogVideoX: Github 링크
- RhymesAI의 Allegro: Github 링크
ConfyUI: Github 링크
Diffusion Model을 보다 쉽게 사용할 수 있게 만들어주는 UI다
Open Sora의 이해에 도움이 될 듯 하며 다음 두 글을 첨부한다.
State of open video generation models in Diffusers (링크)에는 Closed 모델들도 소개하고 있다. 이를 정리하면 다음과 같다.
Closed Models
- Google의 Veo 3 (블로그에는 2지만 지금은 3가 나왔다.)
- Meta의 Movie Gen
- KlingAI의 Kling
- RunwayML의 Gen 3 Alpha
- Pika Labs의 Pika 2.0
- Haliluo의 MiniMax
Stable Diffusion은 Web UI를 통해서 비교적 간단히 생성할 수 있었는데 비디오도 오픈 모델을 이용해서 한 번 시도해봐야겠다.