生成AI×画像一貫性維持技術を用いた歴史解説動画の自動生成

n8n画像生成AI動画生成エンタメコンテンツ

歴史解説動画のリサーチ〜台本〜イラスト〜編集の工数と、AIイラストのキャラ一貫性の課題向け。画像一貫性維持技術とn8nで全工程を自動化し、ストック型動画の量産を実現。コンテンツ制作・個人研究。

プロジェクトの課題 (The Problem)

YouTube等の動画プラットフォームにおいて、「歴史解説動画」は一度当たれば長期間再生され続ける強力なストック型コンテンツですが、その制作には膨大なリサーチ、台本作成、イラスト収集、音声合成、そして動画編集の工数がかかり、継続的な高頻度投稿が難しいという課題がありました。

また画像生成AIでイラストを一気に用意しようとしても、「カットごとにキャラクターの顔や服装が変わってしまう（一貫性の崩壊）」というAI特有の問題が立ちはだかりました。

解決策・アプローチ (The Solution)

画像生成AIの圧倒的なスピードを活かしつつ、「キャラクターの一貫性」を完璧に担保する技術群（ナノバナナ技術等の活用）と、それらの工程を全自動化するn8nワークフローを構築しました。

歴史動画生成AIワークフローイメージ

1. キャラクター画像一貫性の担保

Stable Diffusionや独自モジュールを組み合わせることで、特定の歴史上の人物やオリジナルキャラクターの三面図・特徴を固定化。「右を向いている」「悲しい表情をしている」といったプロンプトを与えても、全く同じ顔・服装の描写が維持される高度な生成パイプラインを作り上げました。

2. ナレーション連動の動的アニメーション

LLMが作成した台本をもとに、音声合成AI（VOICEVOXやElevenLabs等）でナレーションを生成。さらにその音声波形データを解析し、キャラクターの「口パク（リップシンク）」や「まばたき」などの感情表現アニメーションを1クリックで後から自動付与する仕組みを実装しました。

3. n8nによるパイプラインの全自動統合

バラバラに生成された「キャラクター画像」「背景画像」「音声データ」「字幕データ」を、n8n（ローコード自動化ツール）が監視し、自動で一つのディレクトリに収集。FFmpegなどの動画処理処理を経由して、最終的なMP4動画として自動でつなぎ合わせる（マージする）究極の手放しワークフローを構築しています。

成果・インパクト (The Impact)

数十時間かかっていた動画1本の制作フローが、テキストの台本を入力するだけで実質的に「自動レンダリング待ち」の状態へと移行しました。人間が手作業で作ったような一貫性のある高品質な映像を維持したまま、月間数十本のストック型コンテンツをひとりで量産可能な自動制作基盤を確立しています。