← 記事一覧へ戻る

ツール解説

Wan2.1完全ガイド2026：オープンソース最高峰のAI動画生成を使いこなす

2026年現在最も注目されているオープンソースAI動画生成モデルのWan2.1を解説。セットアップから動画生成のコツ、テキストtoビデオ・画像toビデオの使い方、NSFWコンテンツへの活用まで丁寧に解説します。

公開: 2026/03/13 更新: 2026/03/13 読了: 14分

Wan2.1AI動画動画生成オープンソーステキストtoビデオ2026年

はじめに：AI動画生成の民主化

Runway Gen-3やKling AIといった商用サービスがAI動画生成をリードしてきた一方で、2025年以降はオープンソースの動画生成モデルが急速に追いついてきました。その中で最も注目を集めているのが Wan2.1 です。

2026年現在、Wan2.1はオープンソースの動画生成モデルとして最も高い評価を受けており、ComfyUIとの組み合わせでローカル環境でも十分実用的な動画が生成できるようになっています。

関連記事：AnimateDiff入門

Wan2.1とは

Wan2.1は、Alibaba（阿里巴巴） が開発・オープンソースで公開したAI動画生成モデルです。「Wan」は中国語で「万（よろず）」に由来し、汎用性の高さを表しています。

特徴

テキストtoビデオ（T2V）：テキストプロンプトから動画を生成
画像toビデオ（I2V）：静止画を動かして動画にする
オープンウェイトで商用利用可能なライセンス
中国語・英語両対応のプロンプト
AnimateDiffと比べてより自然な動きを生成

Wan2.1のバリアント

Wan2.1には複数のバリアントがあります。

モデル	パラメータ	用途	VRAM目安
Wan2.1-T2V-1.3B	1.3億	テキスト→動画（軽量）	8GB〜
Wan2.1-T2V-14B	140億	テキスト→動画（高品質）	24GB〜
Wan2.1-I2V-14B-480P	140億	画像→動画（480p）	16GB〜
Wan2.1-I2V-14B-720P	140億	画像→動画（720p）	24GB〜

VRAM 12GB以下のユーザーには1.3Bモデルから始めることを強く推奨します。14Bモデルはクオリティが大幅に向上しますが、それ相応のVRAMが必要です。

動作要件

VRAM	動作可能なモデル	速度目安（10秒動画）
8GB	T2V 1.3B（量子化）	20〜40分
12GB	T2V 1.3B	10〜20分
16GB	T2V 1.3B / I2V 14B-480P（量子化）	5〜15分
24GB	全モデル	3〜10分

注意：動画生成はStable Diffusion静止画と比べてはるかに多くのVRAMと時間を要します。10秒の動画生成に数十分かかることは珍しくありません。

ComfyUIでのセットアップ手順

前提条件

ComfyUI がインストール済み
ComfyUI-Manager がインストール済み

ステップ1：必要なカスタムノードのインストール

ComfyUI-Managerから以下をインストールします。

ComfyUI-WanVideoWrapper  または
ComfyUI_VideoHelperSuite

または手動でインストール：

cd ComfyUI/custom_nodes
git clone https://github.com/kijai/ComfyUI-WanVideoWrapper.git

ステップ2：モデルのダウンロード

Hugging Face からモデルをダウンロードします。

ComfyUI/models/
├── wan/
│   ├── Wan2_1-T2V-1.3B/        ← T2V 1.3B モデルファイル
│   └── Wan2_1-T2V-14B/         ← T2V 14B モデルファイル
└── clip/
    └── umt5-xxl-enc-bf16.safetensors  ← テキストエンコーダー

ステップ3：ワークフローの読み込み

ComfyUIのGitHubリポジトリや ComfyUI Examplesから Wan2.1用のワークフローJSONをダウンロードし、ComfyUIにドラッグ&ドロップで読み込みます。

Wan2.1のT2Vイメージ n*参考イメージ：T2Vで生成されるシーン例*n

テキストtoビデオ（T2V）の使い方

プロンプトの書き方

Wan2.1は英語の自然文と中国語の両方に対応しています。英語での記述が最も安定しています。

Stable Diffusionのようなタグ形式より、動きや状況を描写する文章形式が効果的です。

A young woman in a white dress walks slowly through a sunlit forest, her hair flowing in the breeze, dappled light filtering through the trees

動きを明示するコツ

静止した描写より、動作・変化を含む文章の方が動画らしい出力になります。

（静止寄り）A girl standing by the window
（動き寄り）A girl slowly turns to face the camera by a sunlit window, her hair gently swaying

動画特有のキーワード

smooth camera movement, slow pan, gentle zoom, cinematic motion, natural movement, realistic motion

Wan2.1のI2Vワークフローイメージ n*参考イメージ：I2Vの流れをイメージしたビジュアル*n

画像toビデオ（I2V）の使い方

I2Vは静止画を動かすモードです。Stable Diffusionで生成した画像をベースに、その画像が動いている動画を作れます。

I2Vの使いどころ

お気に入りの静止画をアニメーション化
キャラクターに表情変化や呼吸などの微細な動きをつける
背景を動かして映像的な雰囲気を出す

I2V プロンプトの書き方

ベース画像がある分、細かいキャラクター描写は不要です。どんな動きをするかを中心に記述します。

The character slowly looks up at the camera with a gentle smile, hair moving softly in the breeze

NSFW動画生成のためのコツ

モデルの選択

Wan2.1のベースモデルはSFWですが、ComfyUIのワークフローでネガティブプロンプトなどを調整することで対応可能です。また、コミュニティでWan2.1をNSFW向けにファインチューンしたモデルもHugging Faceで公開されています。

プロンプト設計

NSFWシーンの動画は、静止画の描写 + 動きの描写を組み合わせます。

A woman in lingerie slowly removes her clothing, revealing skin, natural soft lighting, bedroom setting, cinematic

品質向上のポイント

短い動画（5秒以内）から始める——長い動画はアナトミー崩れが発生しやすい
大きな動きより微細な動き（呼吸、目線移動、髪のなびき）の方が品質が安定する
I2Vを使って高品質な静止画から動かす方が、T2Vより安定することが多い

動画品質を上げるパラメータ調整

パラメータ	推奨値	説明
Steps	20〜30	多いほど品質向上（時間も増加）
CFG	5〜7	高すぎるとアーティファクト発生
フレーム数	49〜81フレーム	約2〜3秒分（24fps換算）
解像度	480×832 または 832×480	VRAMに応じて調整
Motion Strength（I2V）	0.5〜0.8	動きの強さ。高いほど大きく動く

AnimateDiffとWan2.1の使い分け

比較項目	AnimateDiff	Wan2.1
動きの自然さ	普通〜良い	非常に良い
アニメ系との相性	◎	△
リアル系との相性	○	◎
VRAM要件	低い（8GB〜）	高め（8〜24GB）
生成速度	速い	遅い
LoRA対応	◎	発展中
カメラ制御	Motion LoRAで可能	T2Vでプロンプト指定

アニメ系キャラを動かしたいなら AnimateDiff + Illustrious/NoobAI の組み合わせがまだ有利です。リアル系・映像的な品質を求めるなら Wan2.1 が上回ります。

よくある問題と対処法

問題1：VRAMエラーが出る

対処：1.3Bモデルを使う。量子化モデル（fp8/int8）を使う。フレーム数を減らす

問題2：動きがガクガクする

対処：StepsをFを増やす（25以上）。Motion Strengthを下げる

問題3：キャラが途中で崩れる

対処：短い動画（5秒以内）から始める。大きな動きを避ける。I2Vで静止画をベースにする

問題4：プロンプトが反映されない

対処：より具体的な動きの描写に変える。英語で記述する。CFGを少し上げる