AI短剧角色设计完全指南

本教程你将学到：

理解角色一致性的原理
6角度参考图的使用方法
AI图片生成模型选择
语音克隆与音色配置
自定义图片上传与图生图

一、什么是角色一致性？

角色一致性是AI短剧的核心挑战之一：确保同一个角色在不同分镜中保持相同的外貌特征。

1.1 为什么这很难？

传统AI图像生成的问题：

第1张图：短发女生，圆脸

第2张图：同一个描述 → 长发女生，瓜子脸

第3张图：同一个描述 → 又变成了另一个人

1.2 灵绘AI的解决方案

使用6角度参考图系统：

正面全身 - 固定整体外观与服装比例
正面半身 - 固定五官与上身细节
侧面 - 固定侧脸轮廓与发型
开心 - 喜悦情绪表达风格
愤怒 - 愤怒情绪表达风格
悲伤 - 悲伤情绪表达风格

二、6角度参考图详解

2.1 每个角度的作用

角度	作用	用于场景
正面全身	固定整体外观与服装比例	远景、动作场景
正面半身	固定五官与上身细节	对话、正面镜头
侧面	固定侧脸轮廓与发型	侧面镜头
开心	喜悦情绪表达风格	欢乐场景特写
愤怒	愤怒情绪表达风格	冲突高潮特写
悲伤	悲伤情绪表达风格	情感低谷特写

2.2 参考图生成流程

输入角色描述→AI生成6张参考图→检查满意度→锁定角色

不满意某张？→ 单张重新生成 / 上传自定义图片 / 使用图生图（I2I）模式

三、AI图片生成模型选择

3.1 三种模型对比

模型	特点	适合场景
通义万象	通用性强，风格稳定	适合多数风格
豆包	细节丰富，画面精致	适合写实/国漫
可灵	创意性强，风格多变	适合风格化

积分消耗：每次生成 2 积分（不论选择哪个模型）

⚠️ 重要：同一角色建议全程使用同一个模型，避免不同模型之间的风格差异导致角色不一致

四、角色描述技巧

4.1 描述模板

[年龄段] + [性别] + [发型] + [发色] + [面部特征] + [服装] + [气质]

4.2 示例对比

✅ 好的描述：

25岁左右的年轻女性，黑色长直发及腰，柳叶眉，杏眼，穿着白色职业套装，气质干练

❌ 差的描述：

漂亮女生

4.3 各要素建议词汇

发型：

长发：长直发、波浪卷发、高马尾、低马尾、丸子头
短发：齐耳短发、蘑菇头、寸头、背头

面部：

眉形：柳叶眉、一字眉、粗眉
眼睛：杏眼、丹凤眼、桃花眼、大眼睛
特征：酒窝、泪痣、络腮胡、刀疤

服装：

现代：职业装、休闲装、运动服、晚礼服
古装：汉服、盔甲、道袍、宫装

4.4 AI外貌描述优化

点击「AI优化描述」按钮，系统自动补全缺失的外貌特征：

分析已有描述→识别缺失特征→补充年龄/发型/面部/服装/气质

✅ 建议：先自己写基础描述，再用AI补全细节，效果最佳

五、关键技巧

✅ 最佳实践

区分度要高
❌ 角色A：年轻女性，长发 / 角色B：年轻女性，长发
✅ 角色A：长黑发，穿白色连衣裙 / 角色B：短金发，穿黑色皮衣
服装要固定 - 不要让角色在短剧中换装
善用特征标记 - 给角色添加明显特征：红色发带、蓝色眼镜、胸前项链
参考图要审核 - 生成后仔细检查每个角度，发现问题立即重新生成

⚠️ 常见大坑

❌ 角色描述太短

问题：只写"帅气男生"，每次生成完全不同的人

解决：至少包含5个以上的外貌特征

❌ 使用模糊词汇

问题："好看的"、"时尚的"过于主观

解决：使用具体描述"大眼睛双眼皮"

❌ 不同模型混用

问题：A角度用通义万象，B角度用可灵，风格不统一

解决：同一角色全程使用同一个模型

❌ 不同角色穿相似服装

问题：AI分不清谁是谁

解决：颜色、风格要有明显区分

❌ 参考图有瑕疵也将就

问题：某张图角色多了一只手

解决：一定要重新生成，否则后续可能继承问题

六、自定义图片上传

6.1 使用场景

有现成的角色设定图
对AI生成效果不满意
需要特定的真人形象

6.2 上传要求

要求	说明
格式	JPG / PNG
尺寸	建议 1024x1024 以上
背景	纯色或简单背景最佳
数量	可替换1-6张任意角度图

6.3 注意事项

上传图片风格要与画风设置匹配
不同角度图的人物要一致
确保有商用版权

七、图生图（I2I）模式

7.1 什么是图生图

上传一张参考图，AI基于该图的风格和构图生成新的角色图。

7.2 适用场景

有现成概念图/草图需要AI重绘
希望保持某种特定画风
从其他工具导出的角色图需要风格统一

7.3 使用技巧

✅ 建议：参考图风格要与项目画风设置匹配，否则可能出现风格冲突

八、角色音色配置

8.1 预设音色选择

音色分类	特点	适合角色
甜美女声	清脆甜美	少女、校园角色
成熟女声	沉稳知性	职场女性、女王
阳光男声	清亮活泼	少年、青年角色
磁性男声	低沉有磁性	霸总、成熟男性
童声	稚嫩可爱	儿童角色

支持按性别筛选，每个音色可点击试听。

8.2 语音克隆（自定义音色）

录音方式：

系统提供5种朗读示例文本，随机展示
录音时长要求：10~30秒
实时波形可视化（紫色波形动画）
录音完成后可试听，确认后使用

也可直接上传音频文件（≥5秒）进行克隆。

✅ 完全免费：语音克隆功能 0 积分，无限次使用

8.3 音色管理

克隆音色支持：重命名、删除、批量删除。

九、批量生成与进度

支持批量生成所有角色的参考图（并行模式）
进度面板显示每个角色的生成状态
部分失败时可单独重试，无需全部重来

FAQ

Q: 角色在不同分镜还是不一致怎么办？

尝试以下方法：

检查6角度图是否都锁定
增加角色独特特征（配饰、发色）
降低分镜之间的变化程度

Q: 可以使用真人照片吗？

可以，但需注意：

确保有肖像权授权
真人照片与画风可能不兼容
建议用于写实风格

Q: 角色数量有限制吗？

技术上无限制，但建议：

2-4个角色效果最好
5个以上角色一致性会下降
每增加一个角色，生成时间增加

Q: 不同模型生成的角色风格不一样怎么办？

同一角色建议全程使用同一个模型（通义万象/豆包/可灵），避免跨模型风格差异。

Q: 语音克隆的音色质量如何提升？

录音环境尽量安静、朗读语气自然、时长接近30秒效果最佳。

下一步

学习分镜规划技巧 →