傳統AI視頻需后期配音,而可靈2.6的音畫同出引擎實現端到端生成:

精準對口型:生成英文臺詞時自動調整唇部肌肉運動軌跡,音素匹配度98.7%;
環境音建模:輸入“雨夜咖啡館”,系統同步生成雨滴擊打遮陽棚的方位音效+拿鐵蒸汽聲;
動態混音:動作場面自動強化低頻震動音波,對話場景突出人聲頻段。
技術方案:獨創時空音頻圖譜:將聲波分解為32768個時頻單元,與視頻幀的光流數據實時對齊。例如人物奔跑時,腳步聲頻率隨地面材質(石板→沙灘)平滑過渡。
用戶價值:短視頻團隊實測顯示,音畫同步使創作效率提升3倍,成本降低60%(無需外包配音)。