AI短剧配音合成教程

本教程你将学到：

音色选择与语音克隆
9种情绪标签的使用
批量配音与增量生成
口型同步（2种模型）
音效生成与时间轴分段
BGM生成（3种人声模式）
音频混合面板

一、AI配音概述

灵绘AI使用先进的TTS（Text-to-Speech）技术，将剧本对白转化为自然的语音，并通过口型同步技术让角色"说话"。

配音流程

对白文本→选择音色→设置情绪→生成语音→口型同步→音效生成→BGM生成→音频混合

二、音色选择指南

2.1 预设音色类型

音色分类	特点	适合角色
甜美女声	温柔、可爱	年轻女主、少女
成熟女声	知性、稳重	职场女性、女配
阳光男声	活力、开朗	年轻男主、校园角色
磁性男声	低沉、有魅力	霸总、成熟男性
童声	稚嫩、天真	儿童角色

每个音色可点击试听，支持按性别筛选。还有更多音色可在平台中探索。

2.2 选择建议

角色性格匹配 - 温柔角色选柔和音色，强势角色选有力音色
区分度 - 不同角色选择差异明显的音色
试听对比 - 使用同一句对白试听多个音色

2.3 语音克隆（自定义音色）

录音方式

系统提供5种朗读示例文本，随机展示
录音时长要求：10~30秒
实时波形可视化（紫色波形动画）
操作流程：开始 → 暂停 → 继续 → 停止 → 试听 → 重录 / 使用
时长不足10秒时禁止提交

上传方式

直接上传音频文件（≥5秒，支持常见音频格式）进行克隆。

克隆音色管理

已克隆的音色支持：查看 / 重命名 / 删除 / 批量删除。

✅ 完全免费：语音克隆功能 0 积分，无限次使用

2.4 全局配音设置

在分镜规划页顶部，可一次性为所有角色分配音色，避免逐个分镜重复设置。

三、情绪标签

情绪标签影响AI配音的语气和语调（9种基础情绪）：

😊开心

上扬语调，活泼

😢悲伤

低沉语调，缓慢

😠愤怒

加重语气，快速

😨恐惧

颤抖语调，紧张

😲惊讶

上扬语调，短促

😐平静

平稳语调，中性

😤厌恶

嫌弃语调，拒绝感

🤫低语

轻声细语，私密感

📢大喊

提高音量，强调激动

还有30+扩展情绪可在剧本编辑中选择。情绪要跟随剧情发展变化，避免全程平淡。

四、批量配音与增量生成

批量生成：一键为所有分镜对白生成配音
增量模式：只处理未完成的分镜（跳过已有配音）
配音进度：已完成 N / 总计 M
单段操作：每段对白可独立试听、独立下载
上传自定义：也可为某个分镜上传自己录制的配音音频

五、口型同步

5.1 工作原理

分析语音的音素和时间点
生成对应的嘴型动画
将动画应用到角色图像上
保持角色其他部分不变

5.2 效果优化

✅ 正面角色效果最好，角色正面图的口型同步效果最自然

⚠️ 侧面角色可能需要选择正面对话分镜

5.3 模型选择

模型	特点	推荐场景
通义	效果自然流畅	推荐对话密集场景
可灵	效果稳定可靠	推荐动作场景

5.4 自动跳过

如果视频生成模型已内嵌音频（如Vidu模型），系统自动跳过口型同步步骤。

5.5 口型同步进度

进度显示：处理中（蓝色）/ 已完成（绿色）/ 待处理（灰色）

六、音效生成

6.1 概述

基于AI技术，通过自然语言描述生成音效。

6.2 基础模式

输入音效提示词（如"暴风雨中的雷声"、"咖啡店环境音"），点击生成即可。

6.3 时间轴分段模式（高级）

一个分镜内设置多个音效时间段：

每段设置：起始时间 + 结束时间 + 音效描述
验证规则：结束时间 > 起始时间，描述不为空且 ≤1500字

0~3秒：脚步声由远及近

3~5秒：门打开的吱呀声

5~8秒：雷声轰鸣

6.4 AI推荐提示词

系统根据场景描述/对白/情绪/镜头类型，自动推荐音效提示词。

6.5 上传自定义音效

支持上传任意音频格式的音效文件。

七、BGM（背景音乐）生成

7.1 概述

基于豆包音乐API生成背景音乐。

7.2 配乐提示词

手动编辑（如"轻快的钢琴曲"、"紧张的电子音乐"）
AI推荐提示词（根据场景氛围自动推荐）

7.3 人声模式选择

模式	说明
无人声	纯音乐（推荐大多数场景）
轻人声·哼唱	带轻微人声的配乐
主唱	完整人声演唱（需填写歌词，未填自动降级为轻人声）

7.4 上传自定义配乐

支持上传MP3等格式的配乐文件。

7.5 积分消耗

BGM生成前弹出积分确认弹窗，显示时长和预计消耗。

八、音频混合面板

8.1 三轨独立音量控制

对白音量（0~100）
配乐音量（0~100）
音效音量（0~100）

8.2 预设混音方案

一键选择如"人声优先"（对白100/配乐40/音效60）等预设方案。

8.3 最佳实践

✅ 建议：对白音量最高，配乐次之，音效最低，确保观众听清台词

FAQ

Q: 可以添加背景音乐吗？

可以，灵绘AI已内置BGM生成功能，在配音合成阶段可直接生成。支持3种人声模式（纯音乐/轻哼唱/主唱带歌词），也可上传自定义配乐。

Q: 配音和画面不同步怎么办？

检查分镜时长是否足够，对白较长时需要增加分镜时长。

Q: 口型看起来不自然怎么办？

尝试以下方法：

使用正面角度的角色图
避免过长的连续对白
尝试切换口型模型（通义自然流畅，可灵稳定可靠）
重新生成该分镜

Q: 语音克隆和预设音色哪个好？

预设音色质量稳定、无需采样；克隆音色个性化但依赖录音质量。建议先试听预设音色，不满意再用克隆。

Q: 音效和BGM可以同时使用吗？

可以，通过音频混合面板分别调节音量，避免互相干扰。

Q: 如何让配音更有感情？

为每句对白设置恰当的情绪标签（9种可选），情绪要随剧情变化。配合语音克隆效果更佳。

下一步

学习视频合成与导出 →