テキストからの動画生成「Stable Video Diffusion」
- 2023.12.04
Stability AIが開発した「Stable Video Diffusion」というAIモデルは、テキストから動画を生成する能力を持っています。このモデルは、同社の画像生成モデル「Stable Diffusion」をベースにしており、GitHubでリサーチプレビュー版が公開されています。このモデルのトレーニングには、テキストから画像への事前トレーニング、低解像度の動画の大規模なデータセットによる動画の事前トレーニング、そして高解像度動画の小規模データセットを使った動画の微調整の3フェーズが含まれています。
公開されたリサーチプレビュー版は、現在2つの画像から動画を生成するモデルのみを提供しており、テキストから動画への変換機能はウェイティングリストに登録したユーザーがアクセス可能なWebツールを通じて利用できるようになっています。このプレビュー版では、3~30フレーム/秒のフレームレートで14フレームと25フレームの2種類の動画を生成できるとされています。
GitHub
https://github.com/Stability-AI/generative-models