我用全身照做 AI 對嘴影片，嘴巴完全不會動！

先說結論：你的嘴巴不會動，跟參數一點關係都沒有。是你的參考圖裡，臉太小了。

情境：你想做一支「會說話的人像」影片——給一張圖、配一段語音，讓圖裡的人開口對嘴說話。

你用了一張美美的全身照當參考圖。結果影片生出來——嘴巴完全不動，人站在那像個雕像。

你不信邪，開始瘋狂調參數：換 seed、調音訊強度、改時長、改 prompt……幾百次，全部失敗。 你都快把整台電腦拆了。

停手。你調錯地方了。真正的問題，是那張參考圖的構圖。

你缺的詞 = 參考圖臉部比例（face-to-frame ratio）要 >30%

為什麼「臉太小」嘴巴就不動？（人話版）

對嘴的原理，是 AI 拿「音訊」去驅動「圖裡那張臉的嘴巴」。

關鍵在——AI 需要「夠多的臉部像素」才驅動得動嘴巴。

如果你用全身照，臉可能只占整張畫面的 15%。剩下 85% 是身體、街景、背景。這時候音訊的「驅動訊號」被那一大片身體和背景淹沒了，AI 找不到足夠的臉來動嘴。於是——嘴巴不動。

你調的那些 seed、音訊強度、時長，全都是細枝末節。它們幫不了你，因為根本問題是「臉的面積不夠大」。這就像你想聽清楚一個人講話，但他站在 100 公尺外——你把音量開再大，也不如叫他走近一點。

實測數據很清楚：同一批測試裡，全身照（臉約 15%）→ 完全不對嘴；半身/特寫（臉約 35%）→ 對嘴成功。 換了 4 張圖、跑了 20 幾支影片，結論一致。

正確做法：參考圖一定要「近」，臉要占畫面 30% 以上

規則超簡單：

做對嘴影片的參考圖，一律用特寫或半身照，臉要占畫面 30% 以上。半身（腰部以上）是最遠的極限，全身照永遠做不出對嘴。

所以你該調的不是一堆玄學參數，而是在「生參考圖」的那一步就用對構圖：

✅ 該用的構圖詞	❌ 別用的構圖詞
close-up portrait（特寫人像）	full body（全身）
bust shot（半身）	walking on street（走在街上）
upper body（上半身）	standing in front of…（站在…前面）
face and shoulders（臉與肩）	遠景、中景

⚖️ 誠實說清楚：這是針對特定對嘴技術實測 20+ 次的結論，不同工具的門檻數字可能略有差異。但那個大原則是共通的：對嘴要成功，臉必須夠大、夠近。 別再瞎調參數了——如果你的對嘴死活不動，第一個該檢查的不是設定，是「這張參考圖的臉，是不是太小了」。這個坑最貴的代價不是失敗，是你「調錯方向」浪費掉的幾百次嘗試。

你會搜錯的關鍵字 vs 該搜的正確詞彙

你崩潰時會打的（搜不到）	該搜的正確詞彙
「AI 對嘴嘴巴不會動」	lip sync not working / mouth not moving
「全身照做不出對嘴」	reference image close-up / face ratio
「對嘴要怎麼調參數」	face-to-frame ratio >30% / bust shot

把右邊那欄丟進 Google、或直接貼給你的 AI。這就是我們在幹的事——把你崩潰時打出來的髒話，翻譯成能找到答案的詞。

🎁 直接貼給你的 ChatGPT / Claude

這一段免費。複製、貼上、送出——先讓你的 AI 動起來。

我在做「會說話的人像」影片（lip sync / 對嘴），用一張參考圖 + 一段音訊，讓圖裡的人開口說話。但如果我用全身照或中景圖當參考圖，嘴巴完全不會動，換再多 seed、參數、時長都沒用。

請告訴我：
1. 為什麼參考圖裡「臉占的比例」會決定對嘴成不成功？
2. 臉大概要占畫面多少比例，對嘴才會動？（我聽說要 30% 以上）
3. 生參考圖的時候，我該用什麼構圖描述（特寫、半身）才對？

本文首發於 AI 許願池（https://kaowan.pages.dev/articles/lipsync-mouth-wont-move/），發佈日 2026年7月5日。轉載請註明出處——原創者不怕考古，只有小偷怕。🕳️

我用全身照做 AI 對嘴影片，嘴巴完全不會動！

為什麼「臉太小」嘴巴就不動？（人話版）

正確做法：參考圖一定要「近」，臉要占畫面 30% 以上

你會搜錯的關鍵字 vs 該搜的正確詞彙

🎁 直接貼給你的 ChatGPT / Claude

想更進一步？

完整實作文件

可跑的 codebase / skill