← 記事一覧へ戻る
Wan2.1完全ガイド2026:オープンソース最高峰のAI動画生成を使いこなす のサムネイル

Wan2.1完全ガイド2026:オープンソース最高峰のAI動画生成を使いこなす

2026年現在最も注目されているオープンソースAI動画生成モデルのWan2.1を解説。セットアップから動画生成のコツ、テキストtoビデオ・画像toビデオの使い方、NSFWコンテンツへの活用まで丁寧に解説します。

はじめに:AI動画生成の民主化

Runway Gen-3やKling AIといった商用サービスがAI動画生成をリードしてきた一方で、2025年以降はオープンソースの動画生成モデルが急速に追いついてきました。その中で最も注目を集めているのが Wan2.1 です。

2026年現在、Wan2.1はオープンソースの動画生成モデルとして最も高い評価を受けており、ComfyUIとの組み合わせでローカル環境でも十分実用的な動画が生成できるようになっています。

関連記事:AnimateDiff入門


Wan2.1とは

Wan2.1は、Alibaba(阿里巴巴) が開発・オープンソースで公開したAI動画生成モデルです。「Wan」は中国語で「万(よろず)」に由来し、汎用性の高さを表しています。

特徴

  • テキストtoビデオ(T2V):テキストプロンプトから動画を生成
  • 画像toビデオ(I2V):静止画を動かして動画にする
  • オープンウェイトで商用利用可能なライセンス
  • 中国語・英語両対応のプロンプト
  • AnimateDiffと比べてより自然な動きを生成

Wan2.1のバリアント

Wan2.1には複数のバリアントがあります。

モデルパラメータ用途VRAM目安
Wan2.1-T2V-1.3B1.3億テキスト→動画(軽量)8GB〜
Wan2.1-T2V-14B140億テキスト→動画(高品質)24GB〜
Wan2.1-I2V-14B-480P140億画像→動画(480p)16GB〜
Wan2.1-I2V-14B-720P140億画像→動画(720p)24GB〜

VRAM 12GB以下のユーザーには1.3Bモデルから始めることを強く推奨します。14Bモデルはクオリティが大幅に向上しますが、それ相応のVRAMが必要です。


動作要件

VRAM動作可能なモデル速度目安(10秒動画)
8GBT2V 1.3B(量子化)20〜40分
12GBT2V 1.3B10〜20分
16GBT2V 1.3B / I2V 14B-480P(量子化)5〜15分
24GB全モデル3〜10分

注意:動画生成はStable Diffusion静止画と比べてはるかに多くのVRAMと時間を要します。10秒の動画生成に数十分かかることは珍しくありません。


ComfyUIでのセットアップ手順

前提条件

  • ComfyUI がインストール済み
  • ComfyUI-Manager がインストール済み

ステップ1:必要なカスタムノードのインストール

ComfyUI-Managerから以下をインストールします。

ComfyUI-WanVideoWrapper  または
ComfyUI_VideoHelperSuite

または手動でインストール:

cd ComfyUI/custom_nodes
git clone https://github.com/kijai/ComfyUI-WanVideoWrapper.git

ステップ2:モデルのダウンロード

Hugging Face からモデルをダウンロードします。

ComfyUI/models/
├── wan/
│   ├── Wan2_1-T2V-1.3B/        ← T2V 1.3B モデルファイル
│   └── Wan2_1-T2V-14B/         ← T2V 14B モデルファイル
└── clip/
    └── umt5-xxl-enc-bf16.safetensors  ← テキストエンコーダー

ステップ3:ワークフローの読み込み

ComfyUIのGitHubリポジトリや ComfyUI Examplesから Wan2.1用のワークフローJSONをダウンロードし、ComfyUIにドラッグ&ドロップで読み込みます。


Wan2.1のT2Vイメージn*参考イメージ:T2Vで生成されるシーン例*n

テキストtoビデオ(T2V)の使い方

プロンプトの書き方

Wan2.1は英語の自然文中国語の両方に対応しています。英語での記述が最も安定しています。

Stable Diffusionのようなタグ形式より、動きや状況を描写する文章形式が効果的です。

A young woman in a white dress walks slowly through a sunlit forest, her hair flowing in the breeze, dappled light filtering through the trees

動きを明示するコツ

静止した描写より、動作・変化を含む文章の方が動画らしい出力になります。

(静止寄り)A girl standing by the window
(動き寄り)A girl slowly turns to face the camera by a sunlit window, her hair gently swaying

動画特有のキーワード

smooth camera movement, slow pan, gentle zoom, cinematic motion, natural movement, realistic motion

Wan2.1のI2Vワークフローイメージn*参考イメージ:I2Vの流れをイメージしたビジュアル*n

画像toビデオ(I2V)の使い方

I2Vは静止画を動かすモードです。Stable Diffusionで生成した画像をベースに、その画像が動いている動画を作れます。

I2Vの使いどころ

  • お気に入りの静止画をアニメーション化
  • キャラクターに表情変化や呼吸などの微細な動きをつける
  • 背景を動かして映像的な雰囲気を出す

I2V プロンプトの書き方

ベース画像がある分、細かいキャラクター描写は不要です。どんな動きをするかを中心に記述します。

The character slowly looks up at the camera with a gentle smile, hair moving softly in the breeze

NSFW動画生成のためのコツ

モデルの選択

Wan2.1のベースモデルはSFWですが、ComfyUIのワークフローでネガティブプロンプトなどを調整することで対応可能です。また、コミュニティでWan2.1をNSFW向けにファインチューンしたモデルもHugging Faceで公開されています。

プロンプト設計

NSFWシーンの動画は、静止画の描写 + 動きの描写を組み合わせます。

A woman in lingerie slowly removes her clothing, revealing skin, natural soft lighting, bedroom setting, cinematic

品質向上のポイント

  • 短い動画(5秒以内)から始める——長い動画はアナトミー崩れが発生しやすい
  • 大きな動きより微細な動き(呼吸、目線移動、髪のなびき)の方が品質が安定する
  • I2Vを使って高品質な静止画から動かす方が、T2Vより安定することが多い

動画品質を上げるパラメータ調整

パラメータ推奨値説明
Steps20〜30多いほど品質向上(時間も増加)
CFG5〜7高すぎるとアーティファクト発生
フレーム数49〜81フレーム約2〜3秒分(24fps換算)
解像度480×832 または 832×480VRAMに応じて調整
Motion Strength(I2V)0.5〜0.8動きの強さ。高いほど大きく動く

AnimateDiffとWan2.1の使い分け

比較項目AnimateDiffWan2.1
動きの自然さ普通〜良い非常に良い
アニメ系との相性
リアル系との相性
VRAM要件低い(8GB〜)高め(8〜24GB)
生成速度速い遅い
LoRA対応発展中
カメラ制御Motion LoRAで可能T2Vでプロンプト指定

アニメ系キャラを動かしたいなら AnimateDiff + Illustrious/NoobAI の組み合わせがまだ有利です。リアル系・映像的な品質を求めるなら Wan2.1 が上回ります。


よくある問題と対処法

問題1:VRAMエラーが出る

対処:1.3Bモデルを使う。量子化モデル(fp8/int8)を使う。フレーム数を減らす

問題2:動きがガクガクする

対処:StepsをFを増やす(25以上)。Motion Strengthを下げる

問題3:キャラが途中で崩れる

対処:短い動画(5秒以内)から始める。大きな動きを避ける。I2Vで静止画をベースにする

問題4:プロンプトが反映されない

対処:より具体的な動きの描写に変える。英語で記述する。CFGを少し上げる

広告バナー