「Gemini(Imagen 3)やMidjourneyで、奇跡の一枚ができた!」 「このキャラクターが、こっちを向いて微笑んでくれたら最高なのに…」
AIで画像生成を楽しんでいると、次にやりたくなるのが「動画化」ですよね。
しかし、意気込んで動画生成AI(Runway Gen-2/Gen-3, Pika, Luma Dream Machineなど)にプロンプトを打ち込んでみると…
-
「えっ、誰これ?顔が全然違う…」
-
「指が6本に増えてる!?」
-
「背景がぐにゃぐにゃ動いて酔いそう…」
こんな「AI動画の崩壊」に遭遇して、そっと画面を閉じた経験はありませんか?
実は、画像を動画にする(Image-to-Video)際には、テキストから画像を作る時とは全く異なる「プロンプトのルール」が存在します。これを知らずにやると、どれだけ高性能なAIを使っても失敗します。
この記事では、あなたが作った大切なお気に入りの画像を、「その雰囲気のまま」自然に動かすための、プロンプトの正解パターンを解説します。 今日からあなたのフォルダにある静止画たちに、命を吹き込んでいきましょう!
第1章:なぜ「Text-to-Video」ではなく「Image-to-Video」なのか?
まず、動画を作る方法には大きく分けて2つあります。
-
Text-to-Video(テキストから動画へ): 言葉だけでゼロから動画を作る。
-
Image-to-Video(画像から動画へ): 元となる画像をアップロードして動かす。
初心者が「Image-to-Video」を選ぶべき理由
副業やSNS運用でキャラクターや世界観を統一したい場合、圧倒的に「2. Image-to-Video(Img2Vid)」がおすすめです。
理由はシンプルで、「顔や構図を固定できるから」です。
テキストだけで「白い猫が走る」と指示して動画を作ると、AIは毎回違う猫を生成します。これではストーリーが繋がりません。 しかし、あらかじめGeminiなどで納得いく「白い猫」の画像を作っておき、それをImg2Vidで読み込ませれば、「その猫」が動き出します。
つまり、
-
ステップ1: 画像生成AI(Geminiなど)で、最高品質の「静止画」を作る。
-
ステップ2: 動画生成AIで、その画像を「動かす」。
この二段構えこそが、現在最もクオリティ高く動画を作るための黄金ルートなのです。
第2章:最大の罠!「画像の説明」を書いてはいけない
Img2Vidを行う際、初心者がやってしまう最大の失敗があります。 それは、「画像に写っているものを、もう一度プロンプトで説明してしまうこと」です。
❌ 失敗するプロンプトの例
例えば、「カフェでコーヒーを飲む金髪の女性」の画像をアップロードしたとします。 この時、動画生成AIのプロンプト欄にこう書いていませんか?
「A blonde woman drinking coffee in a cafe, smiling.(カフェでコーヒーを飲む金髪の女性、微笑んでいる)」
これ、実はNGなんです。
なぜダメなのか?
動画生成AIは、アップロードされた画像を「開始地点(1フレーム目)」として認識しています。 そこにさらに「金髪の女性」というテキスト指示を与えると、AIはこう考えます。
AIの思考: 「えっと、画像の女性もいるけど、テキストでも『金髪の女性』を作れって言われてるな…。よし、今の画像を変形させて、新しい金髪の女性を描き足そう!」
その結果、顔が変わったり(モーフィング)、体が二重になったりする現象が起きます。これを「指示の重複(Double Instruction)」による破綻と呼びます。
⭕ 成功するプロンプトの考え方
Img2Vidにおけるプロンプトは、「動き(Motion)」の指示だけに徹するのが正解です。
「Smiling, blinking eyes, steam rising from coffee.(微笑む、瞬きする、コーヒーから湯気が立つ)」
「誰が」「どこで」は書きません。それは画像を見ればわかるからです。 「これから何が起きるか」だけを書く。これがImg2Vidの極意です。
第3章:【部位別】自然に動かす「魔法の単語帳」
では、具体的にどんな言葉を入力すれば、自然で美しい動画になるのでしょうか? 私がよく使う、失敗の少ない「部位別・動きの単語帳」を公開します。これを組み合わせるだけで、静止画が見違えるように生き生きとします。
1. 顔・表情(Facial Expressions)
顔全体を大きく動かすと崩れやすいので、パーツごとの微細な動きを指定します。
-
瞬きさせる:
Blinking,Blinking eyes-
最も基本かつ効果的な動きです。これだけで「生きてる」感が出ます。
-
-
微笑む:
Slight smile,Smiling gently-
Laughing(笑う)だと口が大きく開きすぎて歯が崩れることがあるので、Slight(わずかに)をつけるのがコツです。
-
-
口を動かす(喋らせる):
Talking,Mouth moving-
リップシンク(口パク)ツールを使わない簡易的なアニメーションならこれでOK。
-
-
視線を動かす:
Looking around,Eyes moving to the right
2. 髪・服装(Hair & Cloth)
風を感じさせることで、空間の広がりを演出できます。
-
髪が揺れる:
Hair blowing in the wind,Hair flowing -
服がなびく:
Dress waving,Clothes rustling -
風の強さ調整:
-
Gentle breeze(そよ風) -
Strong wind(強風)
-
3. 自然・背景(Environment)
背景の一部を動かすと、ループ動画としてのクオリティが上がります。
-
光の変化:
Sunlight shifting,Shadows moving,Cinematic lighting -
空・水:
Clouds moving,Water rippling(さざ波),Flowing river -
パーティクル(粒):
Dust particles floating,Cherry blossoms falling(桜が散る)
📝 プロンプト組み合わせ例
入力画像: 桜の木の下に立つ制服の少女 プロンプト:
Hair blowing in the wind, cherry blossoms falling, blinking eyes, slight smile. Slow motion. (風になびく髪、散る桜、瞬き、微笑み。スローモーション。)
このプロンプトには「少女(Girl)」も「制服(School uniform)」も入っていません。それでも、完璧な動画が出来上がります。
第4章:動かしたくない場所がある時は?「固定」のテクニック
動画生成において、「動かすこと」と同じくらい重要なのが「動かさないこと」です。
特に、背景だけを動かしたいのに人物までぐにゃぐにゃ動いてしまったり、逆に人物だけ動かしたいのに背景の建物が歪んでしまったりすることがあります。
これを防ぐためのテクニックが2つあります。
テクニック1:プロンプトで「固定」を指示する
プロンプトの末尾に、動いてほしくない要素について言及します。
-
カメラを固定する:
Static camera-
これを入れないと、AIは勝手にズームしたりパンしたりしがちです。
-
-
背景を固定する:
Background is static,Frozen background
テクニック2:ツール側の「Motion Brush」機能を使う
これはRunway Gen-2などの高度なツールにある機能ですが、**「動かしたい場所をブラシで塗る」**ことができます。
-
画像の「髪」と「背景の雲」だけをブラシで塗る。
-
数値で「どのくらい動かすか」設定する。
-
生成ボタンを押す。
プロンプトだけでは制御しきれない場合、この機能を使うと、顔の崩れを100%防ぎながら髪だけをなびかせることができます。AI副業で高品質な素材を作りたいなら、ぜひ覚えておきたい機能です。
第5章:実践ワークフロー「Geminiから動画を作るまで」
最後に、実際にGeminiを使ってゼロから動画を作るまでの手順を整理しましょう。
STEP 1:Geminiで「素材画像」を作る
まずはGemini(またはお使いの画像生成AI)で、元となる画像を作ります。 動画にした時のことを考えて、「横長(16:9)」で生成するのがおすすめです。
Geminiへの指示(例):
「アニメ風のスタイルで、夕暮れの教室の窓辺に座る少女を描いて。16:9のアスペクト比で。」
STEP 2:動画生成AIにアップロードする
作成した画像をPCやスマホに保存し、動画生成AI(例:Runway, Luma Dream Machine, Kling, Hailuo AIなど)にアクセスしてアップロードします。 ※現在は「Luma Dream Machine」や「Hailuo AI(MiniMax)」などが、無料で試せてクオリティが高いのでおすすめです。
STEP 3:動きだけのプロンプトを入力する
画像の説明は書かず、動きだけを書きます。
入力プロンプト:
Looking out the window, hair blowing gently, sunset lighting shifting. High quality.
STEP 4:生成&確認
生成ボタンを押し、数分待ちます。 出来上がった動画を見て、動きが激しすぎて崩れていたら、プロンプトに Slow motion や Minimal movement を追加して再生成します。
第6章:動画の長さは「5秒」がベスト?
初心者がやりがちなのが、「最初から長い動画を作ろうとすること」です。
現在の動画生成AIの多くは、5秒程度の生成が標準です。 無理に10秒、20秒と伸ばそうとすると、後半になるにつれて映像が破綻しやすくなります。
「5秒」を繋いで物語にする
副業レベルの動画制作では、5秒の高品質なクリップをたくさん作り、それを動画編集ソフト(CapCutやPremiere Pro)で繋ぎ合わせるのが一般的です。
-
シーンA:少女のアップ(5秒)
-
シーンB:教室の全体図(5秒)
-
シーンC:窓の外の風景(5秒)
これらを繋げば、立派な15秒のストーリー動画になります。 「一本の長い動画」を作ろうとせず、「使える5秒の素材」を量産する意識を持つことが、成功への近道です。

