
Wan 2.7 对比 Wan 2.6:实际发生了哪些变化
Wan 2.7 新增了Wan 2.6没有的首尾帧控制、九宫格图像输入、multi-reference 视频和指令编辑功能。下文将实用分析两者的变化,以及不同场景下该如何选择。
太长不看 — 共有5项变化
- ✅ Wan 2.7 新增首末帧控制(FLF2V)—— 2.6 版本不支持
- ✅ Wan 2.7 支持最多5个参考视频输入—— 2.6 版本没有 multi-reference 输入
- ✅ Wan 2.7 新增九宫格图像输入—— 2.6 版本仅支持单图参考
- ✅ Wan 2.7 新增基于指令的视频编辑—— 无需完全重新生成即可编辑现有片段
- ✅ Wan 2.7 最大生成时长为15秒—— Wan 2.6 上限约为5秒
快速规格对比
| 功能 | Wan 2.6 | Wan 2.7 |
|---|---|---|
| 架构 | Diffusion Transformer | Diffusion Transformer + Flow Matching |
| 最大时长 | ~5秒 | 15秒 |
| 最大分辨率 | 1080P | 1080P |
| 宽高比 | 16:9, 9:16, 1:1 | 16:9, 9:16, 1:1 |
| 文生视频 | ✅ | ✅ |
| 图生视频 | ✅ | ✅ |
| 首末帧控制 | ❌ | ✅ |
| 多参考视频(最多5个) | ❌ | ✅ |
| 九宫格图像输入 | ❌ | ✅ |
| 指令式编辑 | ❌ | ✅ |
| 多语言唇形同步 | ❌ | ✅ |
| 开源 | Apache 2.0(已确认) | 计划开源(状态待定) |
| API 访问 | 多种第三方API | WaveSpeedAI, DashScope |
Wan 2.7 新增功能(Wan 2.6 不具备)
这些新增功能让 Wan 2.7 成为一次实质性升级,而非小幅优化。
首/末帧控制
这是本次更新的核心功能。FLF2V(首末帧转视频)允许你同时定义视频片段的开头帧和结束帧,模型会自动生成两帧之间的全部内容。
为什么这很重要: 在 Wan 2.6 中,你可以提供文本 prompt 或起始图像让模型生成动态内容,但完全无法控制镜头的最终结束状态。使用 FLF2V 你可以同时设置两个端点,在以下场景中非常实用:
- 你需要产品镜头从特定角度开始、在特定角度结束
- 你需要让角色按照预设轨迹生成动画
- 你需要在两个已确认的构图之间搭建转场
仅这项功能就将 Wan 2.7 从通用生成工具,升级成了更接近定向动画制作的工具。
多参考视频输入(最多5个)
Wan 2.6 仅能将单张图像作为 image-to-video 生成的起点参考,Wan 2.7 最多可同时接受5个参考视频输入,模型会读取所有参考内容来推断角色外观、运动风格和环境上下文。
为什么这很重要: 单图参考存在局限性。当相机移动时,单个角度拍摄的主体很难保持一致性。提供5个来自不同角度、不同姿势、不同光照的参考视频,能给模型提供更多信息,有效帮助它在生成片段中保持视觉一致性。
对于需要反复使用固定角色或产品素材的品牌和代理商来说,这是一项非常实用的重大改进。
九宫格图像输入
九宫格输入支持将9张图像按3×3网格排列作为单个输入,模型会同时处理全部9帧,从多个视角理解主体或环境。
为什么这很重要: 单张参考图只能捕捉一个视角,9张图能让模型获得主体360度的完整感知。对于单帧无法提供足够空间信息的场景,这对保持角色一致性和定义环境特别有用。
基于指令的视频编辑
输入现有视频片段后,Wan 2.7 可以根据自然语言指令修改视频,例如:把背景从白色改成深色木纹,把夹克颜色从红色改成藏蓝色,让光线更暖,在环境中添加下雨效果。
为什么这很重要: 在 Wan 2.6 中,如果生成的片段90%都符合要求,只需要修改一处,你也只能重新 prompt 并完全重新生成,既耗费时间也增加成本。指令式编辑无需完全重新生成就能完成定向修改。这是图像生成工具的标准功能,现在 Wan 2.7 将它带到了视频领域。
最大时长:15秒
Wan 2.6 上限约为5秒,Wan 2.7 将时长延长到了15秒。三倍时长改变了模型单次生成可产出的内容:完整的产品演示、完整的短场景,或是多节点的叙事片段。
对于5秒以内的片段,两者差别不大——两个模型都能生成。但对于超过5秒的内容,在两者之中 Wan 2.7 是唯一选择。
什么时候仍然适合使用 Wan 2.6
从规格来看 Wan 2.7 是更好的模型,但在某些场景下 Wan 2.6 仍有实际优势:
开源可用。 Wan 2.1(2.x系列的基础)完全基于Apache 2.0开源。如果你的工作流需要本地运行、自建部署或是集成到离线管线,开源Apache 2.0协议的 Wan 2.6 模型可直接使用,文档也很完善。Wan 2.7 的开源状态在发布时仍未确定。
成熟的API集成。 Wan 2.6 开放第三方API访问的时间更长,如果你的工具链已经对接了提供 Wan 2.6 的服务商,切换需要对新集成做测试。
简单的文生视频和图生视频任务。 如果你的使用场景是生成5秒以内的简单 text-to-video 或 image-to-video,Wan 2.6 完全够用,Wan 2.7 的新功能对于简单生成任务来说没有必要。
成本不确定性。 Wan 2.7 在 WaveSpeedAI 和 DashScope 的定价请以两个平台的官方信息为准。对于大批量生成任务,两个版本的每秒定价可能不同,请确认后再投入使用。
决策表
| 场景 | 适用版本 |
|---|---|
| 需要时长超过5秒的视频片段 | Wan 2.7 |
| 需要控制首帧/末帧 | Wan 2.7 |
| 跨镜头保持角色一致性 (multi-reference) | Wan 2.7 |
| 无需全量重生成即可编辑现有片段 | Wan 2.7 |
| 片段时长5秒及以内,简单文生视频(T2V) | 均可 — 优先选择Wan 2.7 |
| 目前需要本地/自托管部署运行 | Wan 2.6(已确认开源) |
| 已搭建稳定的Wan 2.6工作流,无迁移预算 | Wan 2.6 |
结论
Wan 2.7 是一次重大版本升级。首末帧控制、multi-reference 视频输入、九宫格图像输入、指令编辑以及支持15秒时长都是Wan 2.6不具备的能力。对于大多数新的创作工作,Wan 2.7是更合适的选择。
例外情况是需要满足开源、自托管运行需求的场景(遵循Apache 2.0协议的Wan 2.6目前已可用;Wan 2.7的开源状态尚未确定),或是现有Wan 2.6集成已经稳定,迁移成本超过升级收益的情况。
→ 在 NanoBanana 体验Wan 2.7 — 支持text-to-video 和 image-to-video,无需配置API。
常见问题
信息披露
本次功能对比基于阿里通义实验室2026年3月发布的Wan 2.7官方发布资料,以及关于Wan 2.6的公开信息。定价对比仅使用相对描述,因为撰写本文时Wan 2.7的官方定价尚未确认——在进行生产决策前,请前往wavespeed.ai和阿里云DashScope核实当前定价。
更多文章

Google Veo 3.1 Lite:价格仅为Veo 3.1 Fast的一半,速度完全相同
Google已于2026年3月31日推出Veo 3.1 Lite——它是Veo系列中价格最亲民的型号,720p分辨率仅需0.05美元/秒。本文将介绍它支持的功能、局限性,以及它是否适合你的工作流程

即梦 Seedance 2.0 全面解读:字节跳动多模态 AI 视频生成的质的飞跃
深度解读即梦 Seedance 2.0 视频生成模型,全新多模态输入、原生音画同步、2K 分辨率输出,以及导演级创意控制能力。

PixVerse V6 对比 V5.6:相机控制、音频与多镜头引擎
PixVerse V6 于2026年3月30日推出。与V5.6相比,它新增了20余种电影级相机控制功能、原生音频支持、多镜头引擎,并将1080p分辨率下的视频时长上限提升至15秒。以下是详细对比分析。