AI短剧角色设计完全指南
本教程你将学到:
- 理解角色一致性的原理
- 6角度参考图的使用方法
- AI图片生成模型选择
- 语音克隆与音色配置
- 自定义图片上传与图生图
一、什么是角色一致性?
角色一致性是AI短剧的核心挑战之一:确保同一个角色在不同分镜中保持相同的外貌特征。
1.1 为什么这很难?
传统AI图像生成的问题:
第1张图:短发女生,圆脸
第2张图:同一个描述 → 长发女生,瓜子脸
第3张图:同一个描述 → 又变成了另一个人
1.2 灵绘AI的解决方案
使用6角度参考图系统:
- 正面全身 - 固定整体外观与服装比例
- 正面半身 - 固定五官与上身细节
- 侧面 - 固定侧脸轮廓与发型
- 开心 - 喜悦情绪表达风格
- 愤怒 - 愤怒情绪表达风格
- 悲伤 - 悲伤情绪表达风格
二、6角度参考图详解
2.1 每个角度的作用
| 角度 | 作用 | 用于场景 |
|---|---|---|
| 正面全身 | 固定整体外观与服装比例 | 远景、动作场景 |
| 正面半身 | 固定五官与上身细节 | 对话、正面镜头 |
| 侧面 | 固定侧脸轮廓与发型 | 侧面镜头 |
| 开心 | 喜悦情绪表达风格 | 欢乐场景特写 |
| 愤怒 | 愤怒情绪表达风格 | 冲突高潮特写 |
| 悲伤 | 悲伤情绪表达风格 | 情感低谷特写 |
2.2 参考图生成流程
不满意某张?→ 单张重新生成 / 上传自定义图片 / 使用图生图(I2I)模式
三、AI图片生成模型选择
3.1 三种模型对比
| 模型 | 特点 | 适合场景 |
|---|---|---|
| 通义万象 | 通用性强,风格稳定 | 适合多数风格 |
| 豆包 | 细节丰富,画面精致 | 适合写实/国漫 |
| 可灵 | 创意性强,风格多变 | 适合风格化 |
积分消耗:每次生成 2 积分(不论选择哪个模型)
⚠️ 重要:同一角色建议全程使用同一个模型,避免不同模型之间的风格差异导致角色不一致
四、角色描述技巧
4.1 描述模板
4.2 示例对比
✅ 好的描述:
25岁左右的年轻女性,黑色长直发及腰,柳叶眉,杏眼,穿着白色职业套装,气质干练
❌ 差的描述:
漂亮女生
4.3 各要素建议词汇
发型:
- 长发:长直发、波浪卷发、高马尾、低马尾、丸子头
- 短发:齐耳短发、蘑菇头、寸头、背头
面部:
- 眉形:柳叶眉、一字眉、粗眉
- 眼睛:杏眼、丹凤眼、桃花眼、大眼睛
- 特征:酒窝、泪痣、络腮胡、刀疤
服装:
- 现代:职业装、休闲装、运动服、晚礼服
- 古装:汉服、盔甲、道袍、宫装
4.4 AI外貌描述优化
点击「AI优化描述」按钮,系统自动补全缺失的外貌特征:
✅ 建议:先自己写基础描述,再用AI补全细节,效果最佳
五、关键技巧
✅ 最佳实践
- 区分度要高
❌ 角色A:年轻女性,长发 / 角色B:年轻女性,长发
✅ 角色A:长黑发,穿白色连衣裙 / 角色B:短金发,穿黑色皮衣
- 服装要固定 - 不要让角色在短剧中换装
- 善用特征标记 - 给角色添加明显特征:红色发带、蓝色眼镜、胸前项链
- 参考图要审核 - 生成后仔细检查每个角度,发现问题立即重新生成
⚠️ 常见大坑
❌ 角色描述太短
问题:只写"帅气男生",每次生成完全不同的人
解决:至少包含5个以上的外貌特征
❌ 使用模糊词汇
问题:"好看的"、"时尚的"过于主观
解决:使用具体描述"大眼睛双眼皮"
❌ 不同模型混用
问题:A角度用通义万象,B角度用可灵,风格不统一
解决:同一角色全程使用同一个模型
❌ 不同角色穿相似服装
问题:AI分不清谁是谁
解决:颜色、风格要有明显区分
❌ 参考图有瑕疵也将就
问题:某张图角色多了一只手
解决:一定要重新生成,否则后续可能继承问题
六、自定义图片上传
6.1 使用场景
- 有现成的角色设定图
- 对AI生成效果不满意
- 需要特定的真人形象
6.2 上传要求
| 要求 | 说明 |
|---|---|
| 格式 | JPG / PNG |
| 尺寸 | 建议 1024x1024 以上 |
| 背景 | 纯色或简单背景最佳 |
| 数量 | 可替换1-6张任意角度图 |
6.3 注意事项
- 上传图片风格要与画风设置匹配
- 不同角度图的人物要一致
- 确保有商用版权
七、图生图(I2I)模式
7.1 什么是图生图
上传一张参考图,AI基于该图的风格和构图生成新的角色图。
7.2 适用场景
- 有现成概念图/草图需要AI重绘
- 希望保持某种特定画风
- 从其他工具导出的角色图需要风格统一
7.3 使用技巧
✅ 建议:参考图风格要与项目画风设置匹配,否则可能出现风格冲突
八、角色音色配置
8.1 预设音色选择
| 音色分类 | 特点 | 适合角色 |
|---|---|---|
| 甜美女声 | 清脆甜美 | 少女、校园角色 |
| 成熟女声 | 沉稳知性 | 职场女性、女王 |
| 阳光男声 | 清亮活泼 | 少年、青年角色 |
| 磁性男声 | 低沉有磁性 | 霸总、成熟男性 |
| 童声 | 稚嫩可爱 | 儿童角色 |
支持按性别筛选,每个音色可点击试听。
8.2 语音克隆(自定义音色)
录音方式:
- 系统提供5种朗读示例文本,随机展示
- 录音时长要求:10~30秒
- 实时波形可视化(紫色波形动画)
- 录音完成后可试听,确认后使用
也可直接上传音频文件(≥5秒)进行克隆。
✅ 完全免费:语音克隆功能 0 积分,无限次使用
8.3 音色管理
克隆音色支持:重命名、删除、批量删除。
九、批量生成与进度
- 支持批量生成所有角色的参考图(并行模式)
- 进度面板显示每个角色的生成状态
- 部分失败时可单独重试,无需全部重来
FAQ
Q: 角色在不同分镜还是不一致怎么办?
尝试以下方法:
- 检查6角度图是否都锁定
- 增加角色独特特征(配饰、发色)
- 降低分镜之间的变化程度
Q: 可以使用真人照片吗?
可以,但需注意:
- 确保有肖像权授权
- 真人照片与画风可能不兼容
- 建议用于写实风格
Q: 角色数量有限制吗?
技术上无限制,但建议:
- 2-4个角色效果最好
- 5个以上角色一致性会下降
- 每增加一个角色,生成时间增加
Q: 不同模型生成的角色风格不一样怎么办?
同一角色建议全程使用同一个模型(通义万象/豆包/可灵),避免跨模型风格差异。
Q: 语音克隆的音色质量如何提升?
录音环境尽量安静、朗读语气自然、时长接近30秒效果最佳。