我用全身照做 AI 對嘴影片,嘴巴完全不會動!
你想做「會說話的人像」影片(對嘴/lip sync),結果嘴巴死都不動,你換了幾百組參數都沒用。這不是參數玄學——你缺的詞其實超簡單:你的參考圖,臉太小了。這頁告訴你一個「一改就通」的關鍵。
先說結論:你的嘴巴不會動,跟參數一點關係都沒有。是你的參考圖裡,臉太小了。
情境:你想做一支「會說話的人像」影片——給一張圖、配一段語音,讓圖裡的人開口對嘴說話。
你用了一張美美的全身照當參考圖。結果影片生出來——嘴巴完全不動,人站在那像個雕像。
你不信邪,開始瘋狂調參數:換 seed、調音訊強度、改時長、改 prompt……幾百次,全部失敗。 你都快把整台電腦拆了。
停手。你調錯地方了。真正的問題,是那張參考圖的構圖。
你缺的詞 = 參考圖臉部比例(face-to-frame ratio)要 >30%
為什麼「臉太小」嘴巴就不動?(人話版)
對嘴的原理,是 AI 拿「音訊」去驅動「圖裡那張臉的嘴巴」。
關鍵在——AI 需要「夠多的臉部像素」才驅動得動嘴巴。
如果你用全身照,臉可能只占整張畫面的 15%。剩下 85% 是身體、街景、背景。這時候音訊的「驅動訊號」被那一大片身體和背景淹沒了,AI 找不到足夠的臉來動嘴。於是——嘴巴不動。
你調的那些 seed、音訊強度、時長,全都是細枝末節。它們幫不了你,因為根本問題是「臉的面積不夠大」。這就像你想聽清楚一個人講話,但他站在 100 公尺外——你把音量開再大,也不如叫他走近一點。
實測數據很清楚:同一批測試裡,全身照(臉約 15%)→ 完全不對嘴;半身/特寫(臉約 35%)→ 對嘴成功。 換了 4 張圖、跑了 20 幾支影片,結論一致。
正確做法:參考圖一定要「近」,臉要占畫面 30% 以上
規則超簡單:
做對嘴影片的參考圖,一律用特寫或半身照,臉要占畫面 30% 以上。半身(腰部以上)是最遠的極限,全身照永遠做不出對嘴。
所以你該調的不是一堆玄學參數,而是在「生參考圖」的那一步就用對構圖:
| ✅ 該用的構圖詞 | ❌ 別用的構圖詞 |
|---|---|
| close-up portrait(特寫人像) | full body(全身) |
| bust shot(半身) | walking on street(走在街上) |
| upper body(上半身) | standing in front of…(站在…前面) |
| face and shoulders(臉與肩) | 遠景、中景 |
⚖️ 誠實說清楚:這是針對特定對嘴技術實測 20+ 次的結論,不同工具的門檻數字可能略有差異。但那個大原則是共通的:對嘴要成功,臉必須夠大、夠近。 別再瞎調參數了——如果你的對嘴死活不動,第一個該檢查的不是設定,是「這張參考圖的臉,是不是太小了」。這個坑最貴的代價不是失敗,是你「調錯方向」浪費掉的幾百次嘗試。
你會搜錯的關鍵字 vs 該搜的正確詞彙
| 你崩潰時會打的(搜不到) | 該搜的正確詞彙 |
|---|---|
| 「AI 對嘴嘴巴不會動」 | lip sync not working / mouth not moving |
| 「全身照做不出對嘴」 | reference image close-up / face ratio |
| 「對嘴要怎麼調參數」 | face-to-frame ratio >30% / bust shot |
把右邊那欄丟進 Google、或直接貼給你的 AI。這就是我們在幹的事——把你崩潰時打出來的髒話,翻譯成能找到答案的詞。
🎁 直接貼給你的 ChatGPT / Claude
這一段免費。複製、貼上、送出——先讓你的 AI 動起來。
我在做「會說話的人像」影片(lip sync / 對嘴),用一張參考圖 + 一段音訊,讓圖裡的人開口說話。但如果我用全身照或中景圖當參考圖,嘴巴完全不會動,換再多 seed、參數、時長都沒用。 請告訴我: 1. 為什麼參考圖裡「臉占的比例」會決定對嘴成不成功? 2. 臉大概要占畫面多少比例,對嘴才會動?(我聽說要 30% 以上) 3. 生參考圖的時候,我該用什麼構圖描述(特寫、半身)才對?
想更進一步?
上面免費的三層已經能讓你動起來。如果你想要「照著做不迷路」甚至「我們幫你跑好」——往下看。
- 免費 這個坑是什麼、誰會踩
- 免費 人話解釋:錯在哪、正確的詞彙
- 免費 一段可直接貼給 AI 的 prompt
完整實作文件
未來新增- 對嘴成功的完整條件清單(臉部比例、構圖、音訊)
- 生參考圖的正確 prompt 構圖詞 + 反例對照
- 「參數玄學」vs「真正該調的東西」的判斷法,省下瞎試的時間
可跑的 codebase / skill
未來新增- 現成的對嘴 workflow 設定 + 參考圖構圖範本
- ✅ 近景/半身構圖 prompt ✅ 臉部比例檢查 ✅ 音訊設定
本文首發於 AI 許願池(https://kaowan.pages.dev/articles/lipsync-mouth-wont-move/),發佈日 2026年7月5日。 轉載請註明出處——原創者不怕考古,只有小偷怕。🕳️