AI短剧配音合成教程
本教程你将学到:
- 音色选择与语音克隆
- 9种情绪标签的使用
- 批量配音与增量生成
- 口型同步(2种模型)
- 音效生成与时间轴分段
- BGM生成(3种人声模式)
- 音频混合面板
一、AI配音概述
灵绘AI使用先进的TTS(Text-to-Speech)技术,将剧本对白转化为自然的语音,并通过口型同步技术让角色"说话"。
配音流程
二、音色选择指南
2.1 预设音色类型
| 音色分类 | 特点 | 适合角色 |
|---|---|---|
| 甜美女声 | 温柔、可爱 | 年轻女主、少女 |
| 成熟女声 | 知性、稳重 | 职场女性、女配 |
| 阳光男声 | 活力、开朗 | 年轻男主、校园角色 |
| 磁性男声 | 低沉、有魅力 | 霸总、成熟男性 |
| 童声 | 稚嫩、天真 | 儿童角色 |
每个音色可点击试听,支持按性别筛选。还有更多音色可在平台中探索。
2.2 选择建议
- 角色性格匹配 - 温柔角色选柔和音色,强势角色选有力音色
- 区分度 - 不同角色选择差异明显的音色
- 试听对比 - 使用同一句对白试听多个音色
2.3 语音克隆(自定义音色)
录音方式
- 系统提供5种朗读示例文本,随机展示
- 录音时长要求:10~30秒
- 实时波形可视化(紫色波形动画)
- 操作流程:开始 → 暂停 → 继续 → 停止 → 试听 → 重录 / 使用
- 时长不足10秒时禁止提交
上传方式
直接上传音频文件(≥5秒,支持常见音频格式)进行克隆。
克隆音色管理
已克隆的音色支持:查看 / 重命名 / 删除 / 批量删除。
✅ 完全免费:语音克隆功能 0 积分,无限次使用
2.4 全局配音设置
在分镜规划页顶部,可一次性为所有角色分配音色,避免逐个分镜重复设置。
三、情绪标签
情绪标签影响AI配音的语气和语调(9种基础情绪):
上扬语调,活泼
低沉语调,缓慢
加重语气,快速
颤抖语调,紧张
上扬语调,短促
平稳语调,中性
嫌弃语调,拒绝感
轻声细语,私密感
提高音量,强调激动
还有30+扩展情绪可在剧本编辑中选择。情绪要跟随剧情发展变化,避免全程平淡。
四、批量配音与增量生成
- 批量生成:一键为所有分镜对白生成配音
- 增量模式:只处理未完成的分镜(跳过已有配音)
- 配音进度:已完成 N / 总计 M
- 单段操作:每段对白可独立试听、独立下载
- 上传自定义:也可为某个分镜上传自己录制的配音音频
五、口型同步
5.1 工作原理
- 分析语音的音素和时间点
- 生成对应的嘴型动画
- 将动画应用到角色图像上
- 保持角色其他部分不变
5.2 效果优化
✅ 正面角色效果最好,角色正面图的口型同步效果最自然
⚠️ 侧面角色可能需要选择正面对话分镜
5.3 模型选择
| 模型 | 特点 | 推荐场景 |
|---|---|---|
| 通义 | 效果自然流畅 | 推荐对话密集场景 |
| 可灵 | 效果稳定可靠 | 推荐动作场景 |
5.4 自动跳过
如果视频生成模型已内嵌音频(如Vidu模型),系统自动跳过口型同步步骤。
5.5 口型同步进度
进度显示:处理中(蓝色)/ 已完成(绿色)/ 待处理(灰色)
六、音效生成
6.1 概述
基于AI技术,通过自然语言描述生成音效。
6.2 基础模式
输入音效提示词(如"暴风雨中的雷声"、"咖啡店环境音"),点击生成即可。
6.3 时间轴分段模式(高级)
一个分镜内设置多个音效时间段:
- 每段设置:起始时间 + 结束时间 + 音效描述
- 验证规则:结束时间 > 起始时间,描述不为空且 ≤1500字
0~3秒:脚步声由远及近
3~5秒:门打开的吱呀声
5~8秒:雷声轰鸣
6.4 AI推荐提示词
系统根据场景描述/对白/情绪/镜头类型,自动推荐音效提示词。
6.5 上传自定义音效
支持上传任意音频格式的音效文件。
七、BGM(背景音乐)生成
7.1 概述
基于豆包音乐API生成背景音乐。
7.2 配乐提示词
- 手动编辑(如"轻快的钢琴曲"、"紧张的电子音乐")
- AI推荐提示词(根据场景氛围自动推荐)
7.3 人声模式选择
| 模式 | 说明 |
|---|---|
| 无人声 | 纯音乐(推荐大多数场景) |
| 轻人声·哼唱 | 带轻微人声的配乐 |
| 主唱 | 完整人声演唱(需填写歌词,未填自动降级为轻人声) |
7.4 上传自定义配乐
支持上传MP3等格式的配乐文件。
7.5 积分消耗
BGM生成前弹出积分确认弹窗,显示时长和预计消耗。
八、音频混合面板
8.1 三轨独立音量控制
- 对白音量(0~100)
- 配乐音量(0~100)
- 音效音量(0~100)
8.2 预设混音方案
一键选择如"人声优先"(对白100/配乐40/音效60)等预设方案。
8.3 最佳实践
✅ 建议:对白音量最高,配乐次之,音效最低,确保观众听清台词
FAQ
Q: 可以添加背景音乐吗?
可以,灵绘AI已内置BGM生成功能,在配音合成阶段可直接生成。支持3种人声模式(纯音乐/轻哼唱/主唱带歌词),也可上传自定义配乐。
Q: 配音和画面不同步怎么办?
检查分镜时长是否足够,对白较长时需要增加分镜时长。
Q: 口型看起来不自然怎么办?
尝试以下方法:
- 使用正面角度的角色图
- 避免过长的连续对白
- 尝试切换口型模型(通义自然流畅,可灵稳定可靠)
- 重新生成该分镜
Q: 语音克隆和预设音色哪个好?
预设音色质量稳定、无需采样;克隆音色个性化但依赖录音质量。建议先试听预设音色,不满意再用克隆。
Q: 音效和BGM可以同时使用吗?
可以,通过音频混合面板分别调节音量,避免互相干扰。
Q: 如何让配音更有感情?
为每句对白设置恰当的情绪标签(9种可选),情绪要随剧情变化。配合语音克隆效果更佳。