当前位置：首页 » AI最新动态

Wan 2.6：角色与音色可参考，多镜头更稳定，短视频制作更可控

3月前 AI最新动态 692 0

作为一个长期用AI工具做内容设计和产品探索的人，我对视频生成的“可控性”一直很敏感：角色能否保持一致、镜头是否能按叙事意图切换、声音和口型是否对齐。

今天把万相2.6试了一圈，我的核心结论是:它把创作方式从“纯提示词驱动”推进到“以角色为中心的参考驱动”，并且把声画同步和多镜头规划做到了一个可用的水平，适合短视频、广告与预演等场景的快速产出。

关键更新

多模态参考生成

继文本、图像、音频之后，Wan 2.6 支持视频参考生成。可复刻任意 5s 视频内的人物、动物、动画人物、物体，并作为后续视频创作的主角，不止复刻形象，还能复刻音色；支持主角的单人表演和双人合拍，并输出声画同步的视频（包含配乐、音效、人声）。

声画同步生成

支持更完整的叙事声画同步，多人对话场景稳定生成，能生成真实自然的人声表达。声音质感提升，音乐和歌唱效果也更好听。

多镜头智能调度

自然语言和专业分镜提示词都能理解，可在一段视频中实现多镜头叙事，并保持关键信息的高度一致性

超长视频输出

支持 15 秒 1080P 高清视频输出，更真实细腻的画面质感、更高级的美学表现

合拍对话（角色+音色参考）：上传我自己的短视频作为音色参考，再设定一个历史人物形象，同框对话。口型和语义对应准确，镜头在说话者时有推进，音色之间区分明显。对双人场景来说，这解决了我过去经常遇到的“声音串味”和“镜头只会停在一个景别”的问题。

音频驱动的图生视频：只给一张正面图和一段我录的快语速音频，不写提示词。模型自动完成口型匹配、情绪节奏和镜头切换，连贯性比我之前试过的同类方案更稳定。

单图+提示词的播客段子：一张猫狗合照+分场景提示词。模型在说话角色时推进镜头、角色远离镜头时音量减小；两种音色区分度清晰。属于“拿来就能发”的效果。

维度	常见AI视频（近半年实测体验）	万相2.6
角色控制	主要依赖文本或单图引导，角色一致性弱，多人同框易混乱	角色参考（人/动物/物体），外观与音色可同步，支持单人与双人合拍
声画同步	常见做法是后期叠加语音，口型与节奏常不匹配	从参考音频提取音色与节奏，口型对齐度提升，多人场景更易区分
镜头组织	多为单镜头生成，分镜需要人工拼接，角色细节易漂移	文本驱动的智能分镜，镜头切换保持关键视觉信息相对一致
时长与分辨率	以短片段为主，长时连贯性与一致性是难点	文生/图生最长15秒，参考生视频10秒；最高1080P
使用门槛	提示词友好，但多人与分镜需要额外剪辑与配音	建议准备参考图/音频+简洁分镜提示词，减少后期剪辑与配音工作量
适合人群	单镜头实验、素材快速试水	短视频创作者、广告与品牌内容团队、影视前期预演、虚拟IP运营

准备参考：上传角色的图像或视频；若需要音色统一，准备干净的语音样本。

编写提示词：用“场景1/2/3…”的方式描述镜头、景别、说话者和语句；同框可明确角色名称。

调用角色：在界面中录制或上传素材，使用“@角色名”触发参考；选择文生/图生/参考生模式。

质量检查：重点看口型对齐、镜头切换的一致性、音色区分；若大远景模糊，尝试以中近景为主。

阿里云百炼：https://bailian.console.aliyun.com/?tab=model#/model-market/all?providers=wan

万相官网：https://tongyi.aliyun.com/wan/

万相2.6的价值在于把“角色与音色的一致性”和“多镜头的基本可控”整合到同一条生成链路里。

对于需要快速产出、又希望形象统一的团队（短视频、广告、虚拟IP、影视预演），它能显著减少剪辑与配音的重复劳动，把精力转到脚本与镜头意图上。

现阶段的限制也清晰：超长叙事、复杂调度仍需人工；远景细节还不稳定。

整体而言，这是一条更贴近实际制作流程的升级路径，我会把它纳入日常工具栈，用于系列化内容与方案预演。

声明：本站原创文章文字版权归本站所有，转载务必注明作者和出处；本站转载文章仅仅代表原作者观点，不代表本站立场，图文版权归原作者所有。如有侵权，请联系我们删除。

请登录后发表评论