はじめに:AI動画生成の民主化
Runway Gen-3やKling AIといった商用サービスがAI動画生成をリードしてきた一方で、2025年以降はオープンソースの動画生成モデルが急速に追いついてきました。その中で最も注目を集めているのが Wan2.1 です。
2026年現在、Wan2.1はオープンソースの動画生成モデルとして最も高い評価を受けており、ComfyUIとの組み合わせでローカル環境でも十分実用的な動画が生成できるようになっています。
関連記事:AnimateDiff入門
Wan2.1とは
Wan2.1は、Alibaba(阿里巴巴) が開発・オープンソースで公開したAI動画生成モデルです。「Wan」は中国語で「万(よろず)」に由来し、汎用性の高さを表しています。
特徴
- テキストtoビデオ(T2V):テキストプロンプトから動画を生成
- 画像toビデオ(I2V):静止画を動かして動画にする
- オープンウェイトで商用利用可能なライセンス
- 中国語・英語両対応のプロンプト
- AnimateDiffと比べてより自然な動きを生成
Wan2.1のバリアント
Wan2.1には複数のバリアントがあります。
| モデル | パラメータ | 用途 | VRAM目安 |
|---|---|---|---|
| Wan2.1-T2V-1.3B | 1.3億 | テキスト→動画(軽量) | 8GB〜 |
| Wan2.1-T2V-14B | 140億 | テキスト→動画(高品質) | 24GB〜 |
| Wan2.1-I2V-14B-480P | 140億 | 画像→動画(480p) | 16GB〜 |
| Wan2.1-I2V-14B-720P | 140億 | 画像→動画(720p) | 24GB〜 |
VRAM 12GB以下のユーザーには1.3Bモデルから始めることを強く推奨します。14Bモデルはクオリティが大幅に向上しますが、それ相応のVRAMが必要です。
動作要件
| VRAM | 動作可能なモデル | 速度目安(10秒動画) |
|---|---|---|
| 8GB | T2V 1.3B(量子化) | 20〜40分 |
| 12GB | T2V 1.3B | 10〜20分 |
| 16GB | T2V 1.3B / I2V 14B-480P(量子化) | 5〜15分 |
| 24GB | 全モデル | 3〜10分 |
注意:動画生成はStable Diffusion静止画と比べてはるかに多くのVRAMと時間を要します。10秒の動画生成に数十分かかることは珍しくありません。
ComfyUIでのセットアップ手順
前提条件
- ComfyUI がインストール済み
- ComfyUI-Manager がインストール済み
ステップ1:必要なカスタムノードのインストール
ComfyUI-Managerから以下をインストールします。
ComfyUI-WanVideoWrapper または
ComfyUI_VideoHelperSuite
または手動でインストール:
cd ComfyUI/custom_nodes
git clone https://github.com/kijai/ComfyUI-WanVideoWrapper.git
ステップ2:モデルのダウンロード
Hugging Face からモデルをダウンロードします。
ComfyUI/models/
├── wan/
│ ├── Wan2_1-T2V-1.3B/ ← T2V 1.3B モデルファイル
│ └── Wan2_1-T2V-14B/ ← T2V 14B モデルファイル
└── clip/
└── umt5-xxl-enc-bf16.safetensors ← テキストエンコーダー
ステップ3:ワークフローの読み込み
ComfyUIのGitHubリポジトリや ComfyUI Examplesから Wan2.1用のワークフローJSONをダウンロードし、ComfyUIにドラッグ&ドロップで読み込みます。

n*参考イメージ:T2Vで生成されるシーン例*n
テキストtoビデオ(T2V)の使い方
プロンプトの書き方
Wan2.1は英語の自然文と中国語の両方に対応しています。英語での記述が最も安定しています。
Stable Diffusionのようなタグ形式より、動きや状況を描写する文章形式が効果的です。
A young woman in a white dress walks slowly through a sunlit forest, her hair flowing in the breeze, dappled light filtering through the trees
動きを明示するコツ
静止した描写より、動作・変化を含む文章の方が動画らしい出力になります。
(静止寄り)A girl standing by the window
(動き寄り)A girl slowly turns to face the camera by a sunlit window, her hair gently swaying
動画特有のキーワード
smooth camera movement, slow pan, gentle zoom, cinematic motion, natural movement, realistic motion

n*参考イメージ:I2Vの流れをイメージしたビジュアル*n
画像toビデオ(I2V)の使い方
I2Vは静止画を動かすモードです。Stable Diffusionで生成した画像をベースに、その画像が動いている動画を作れます。
I2Vの使いどころ
- お気に入りの静止画をアニメーション化
- キャラクターに表情変化や呼吸などの微細な動きをつける
- 背景を動かして映像的な雰囲気を出す
I2V プロンプトの書き方
ベース画像がある分、細かいキャラクター描写は不要です。どんな動きをするかを中心に記述します。
The character slowly looks up at the camera with a gentle smile, hair moving softly in the breeze
NSFW動画生成のためのコツ
モデルの選択
Wan2.1のベースモデルはSFWですが、ComfyUIのワークフローでネガティブプロンプトなどを調整することで対応可能です。また、コミュニティでWan2.1をNSFW向けにファインチューンしたモデルもHugging Faceで公開されています。
プロンプト設計
NSFWシーンの動画は、静止画の描写 + 動きの描写を組み合わせます。
A woman in lingerie slowly removes her clothing, revealing skin, natural soft lighting, bedroom setting, cinematic
品質向上のポイント
- 短い動画(5秒以内)から始める——長い動画はアナトミー崩れが発生しやすい
- 大きな動きより微細な動き(呼吸、目線移動、髪のなびき)の方が品質が安定する
- I2Vを使って高品質な静止画から動かす方が、T2Vより安定することが多い
動画品質を上げるパラメータ調整
| パラメータ | 推奨値 | 説明 |
|---|---|---|
| Steps | 20〜30 | 多いほど品質向上(時間も増加) |
| CFG | 5〜7 | 高すぎるとアーティファクト発生 |
| フレーム数 | 49〜81フレーム | 約2〜3秒分(24fps換算) |
| 解像度 | 480×832 または 832×480 | VRAMに応じて調整 |
| Motion Strength(I2V) | 0.5〜0.8 | 動きの強さ。高いほど大きく動く |
AnimateDiffとWan2.1の使い分け
| 比較項目 | AnimateDiff | Wan2.1 |
|---|---|---|
| 動きの自然さ | 普通〜良い | 非常に良い |
| アニメ系との相性 | ◎ | △ |
| リアル系との相性 | ○ | ◎ |
| VRAM要件 | 低い(8GB〜) | 高め(8〜24GB) |
| 生成速度 | 速い | 遅い |
| LoRA対応 | ◎ | 発展中 |
| カメラ制御 | Motion LoRAで可能 | T2Vでプロンプト指定 |
アニメ系キャラを動かしたいなら AnimateDiff + Illustrious/NoobAI の組み合わせがまだ有利です。リアル系・映像的な品質を求めるなら Wan2.1 が上回ります。
よくある問題と対処法
問題1:VRAMエラーが出る
対処:1.3Bモデルを使う。量子化モデル(fp8/int8)を使う。フレーム数を減らす
問題2:動きがガクガクする
対処:StepsをFを増やす(25以上)。Motion Strengthを下げる
問題3:キャラが途中で崩れる
対処:短い動画(5秒以内)から始める。大きな動きを避ける。I2Vで静止画をベースにする
問題4:プロンプトが反映されない
対処:より具体的な動きの描写に変える。英語で記述する。CFGを少し上げる