AI短剧配音合成教程

本教程你将学到:

  • 音色选择与语音克隆
  • 9种情绪标签的使用
  • 批量配音与增量生成
  • 口型同步(2种模型)
  • 音效生成与时间轴分段
  • BGM生成(3种人声模式)
  • 音频混合面板

一、AI配音概述

灵绘AI使用先进的TTS(Text-to-Speech)技术,将剧本对白转化为自然的语音,并通过口型同步技术让角色"说话"。

配音流程

对白文本选择音色设置情绪生成语音口型同步音效生成BGM生成音频混合

二、音色选择指南

2.1 预设音色类型

音色分类特点适合角色
甜美女声温柔、可爱年轻女主、少女
成熟女声知性、稳重职场女性、女配
阳光男声活力、开朗年轻男主、校园角色
磁性男声低沉、有魅力霸总、成熟男性
童声稚嫩、天真儿童角色

每个音色可点击试听,支持按性别筛选。还有更多音色可在平台中探索。

2.2 选择建议

  • 角色性格匹配 - 温柔角色选柔和音色,强势角色选有力音色
  • 区分度 - 不同角色选择差异明显的音色
  • 试听对比 - 使用同一句对白试听多个音色

2.3 语音克隆(自定义音色)

录音方式

  • 系统提供5种朗读示例文本,随机展示
  • 录音时长要求:10~30秒
  • 实时波形可视化(紫色波形动画)
  • 操作流程:开始 → 暂停 → 继续 → 停止 → 试听 → 重录 / 使用
  • 时长不足10秒时禁止提交

上传方式

直接上传音频文件(≥5秒,支持常见音频格式)进行克隆。

克隆音色管理

已克隆的音色支持:查看 / 重命名 / 删除 / 批量删除。

完全免费:语音克隆功能 0 积分,无限次使用

2.4 全局配音设置

在分镜规划页顶部,可一次性为所有角色分配音色,避免逐个分镜重复设置。

三、情绪标签

情绪标签影响AI配音的语气和语调(9种基础情绪):

😊开心

上扬语调,活泼

😢悲伤

低沉语调,缓慢

😠愤怒

加重语气,快速

😨恐惧

颤抖语调,紧张

😲惊讶

上扬语调,短促

😐平静

平稳语调,中性

😤厌恶

嫌弃语调,拒绝感

🤫低语

轻声细语,私密感

📢大喊

提高音量,强调激动

还有30+扩展情绪可在剧本编辑中选择。情绪要跟随剧情发展变化,避免全程平淡。

四、批量配音与增量生成

  • 批量生成:一键为所有分镜对白生成配音
  • 增量模式:只处理未完成的分镜(跳过已有配音)
  • 配音进度:已完成 N / 总计 M
  • 单段操作:每段对白可独立试听、独立下载
  • 上传自定义:也可为某个分镜上传自己录制的配音音频

五、口型同步

5.1 工作原理

  1. 分析语音的音素和时间点
  2. 生成对应的嘴型动画
  3. 将动画应用到角色图像上
  4. 保持角色其他部分不变

5.2 效果优化

✅ 正面角色效果最好,角色正面图的口型同步效果最自然

⚠️ 侧面角色可能需要选择正面对话分镜

5.3 模型选择

模型特点推荐场景
通义效果自然流畅推荐对话密集场景
可灵效果稳定可靠推荐动作场景

5.4 自动跳过

如果视频生成模型已内嵌音频(如Vidu模型),系统自动跳过口型同步步骤。

5.5 口型同步进度

进度显示:处理中(蓝色)/ 已完成(绿色)/ 待处理(灰色)

六、音效生成

6.1 概述

基于AI技术,通过自然语言描述生成音效。

6.2 基础模式

输入音效提示词(如"暴风雨中的雷声"、"咖啡店环境音"),点击生成即可。

6.3 时间轴分段模式(高级)

一个分镜内设置多个音效时间段:

  • 每段设置:起始时间 + 结束时间 + 音效描述
  • 验证规则:结束时间 > 起始时间,描述不为空且 ≤1500字

0~3秒:脚步声由远及近

3~5秒:门打开的吱呀声

5~8秒:雷声轰鸣

6.4 AI推荐提示词

系统根据场景描述/对白/情绪/镜头类型,自动推荐音效提示词。

6.5 上传自定义音效

支持上传任意音频格式的音效文件。

七、BGM(背景音乐)生成

7.1 概述

基于豆包音乐API生成背景音乐。

7.2 配乐提示词

  • 手动编辑(如"轻快的钢琴曲"、"紧张的电子音乐")
  • AI推荐提示词(根据场景氛围自动推荐)

7.3 人声模式选择

模式说明
无人声纯音乐(推荐大多数场景)
轻人声·哼唱带轻微人声的配乐
主唱完整人声演唱(需填写歌词,未填自动降级为轻人声)

7.4 上传自定义配乐

支持上传MP3等格式的配乐文件。

7.5 积分消耗

BGM生成前弹出积分确认弹窗,显示时长和预计消耗。

八、音频混合面板

8.1 三轨独立音量控制

  • 对白音量(0~100)
  • 配乐音量(0~100)
  • 音效音量(0~100)

8.2 预设混音方案

一键选择如"人声优先"(对白100/配乐40/音效60)等预设方案。

8.3 最佳实践

建议:对白音量最高,配乐次之,音效最低,确保观众听清台词

FAQ

Q: 可以添加背景音乐吗?

可以,灵绘AI已内置BGM生成功能,在配音合成阶段可直接生成。支持3种人声模式(纯音乐/轻哼唱/主唱带歌词),也可上传自定义配乐。

Q: 配音和画面不同步怎么办?

检查分镜时长是否足够,对白较长时需要增加分镜时长。

Q: 口型看起来不自然怎么办?

尝试以下方法:

  1. 使用正面角度的角色图
  2. 避免过长的连续对白
  3. 尝试切换口型模型(通义自然流畅,可灵稳定可靠)
  4. 重新生成该分镜

Q: 语音克隆和预设音色哪个好?

预设音色质量稳定、无需采样;克隆音色个性化但依赖录音质量。建议先试听预设音色,不满意再用克隆。

Q: 音效和BGM可以同时使用吗?

可以,通过音频混合面板分别调节音量,避免互相干扰。

Q: 如何让配音更有感情?

为每句对白设置恰当的情绪标签(9种可选),情绪要随剧情变化。配合语音克隆效果更佳。

下一步

学习视频合成与导出 →