Logo

无限 WAN 2.2 视频生成器:270亿参数MoE电影级AI模型

这是阿里巴巴推出的下一代视频生成AI,采用270亿总参数的专家混合架构,每步推理激活140亿参数,大幅提升了输出视觉质量。它在电影级视频生成领域实现突破性表现,优化了动作控制精度,提升了生成速度,还依托规模更大的扩展训练数据获得更好效果。

公开
*

Wan 2.2 YouTube 视频

观看展示 Wan 2.2 强大 AI 视频生成和长视频能力的演示和教程

WAN 2.2 在 X 上的热门评价

看看大家在 X (Twitter) 上对 WAN 2.2 Animate 的评价

pretty much the end for dancing influencers lol… wan 2.2 animate can not only copy crazy camera moves, but it literally mimics body moves and.. even facial expressions accurately like honestly… can you even tell which one’s the real video?

el.cine
el.cine
@EHuanglu

omg... it's over... Hollywood has officially been left behind you can swap out any actor from any film in one click using Higgsfield’s Wan Replace, it even works with intense camera motion now, anyone can achieve Hollywood level motion control using AI here’s how to do it:

Reply

什么是 WAN 2.2

阿里巴巴突破性的专家混合视频生成模型,具有革命性架构和电影级质量

270亿总计模型参数
140亿活跃每个去噪步骤
+65.6%更多训练图像
+83.2%更多训练视频

WAN 2.2 推出了突破性的专家混合(MoE)架构,拥有270亿总参数和每个去噪步骤140亿活跃参数,实现了前所未有的电影级质量。

WAN 2.2 领先核心功能

探索 WAN 2.2 这款顶级AI视频生成模型的突破性创新功能,它搭载专家混合架构,能实现前所未有的电影级生成质量

专家混合架构

革命性双专家系统总参数达270亿,单步活跃参数为140亿,通过专门的高噪声、低噪声专家模块协同,同时实现最优计算效率与出色视频质量。

大规模扩展训练数据

对比WAN 2.1,训练所用图像数据增加65.6%、视频数据增加83.2%,还包含标注了详细光照、构图和调色信息的美学数据,助力输出电影级效果。

增强运动一致性

拥有出色的时间一致性,支持流畅物体交互、复杂人体动作与顺滑相机运动,能精准模拟现实世界的物理规律与运动动力学。

多解析度支援

支援480p和720p视频生成,可配置16:9、9:16、1:1、4:3和3:4等宽高比,满足多样化创意应用和平台需求。

灵活帧控制

可生成65-257帧(最长5秒)的视频,帧率范围为8-30 FPS,针对各类创意需求提供对视频时长和时间动态的精准控制。

先进文本生成视频

依托升级的语言处理能力,将详细文本提示转换为高质量视频,对复杂描述、动作序列和场景构图都有出色的理解能力。

高端图像生成视频转换

使用140亿A14B模型将静态图像转换为动态视频,在保持原始画面视觉一致性的同时,为静态图像增添真实运动和时间深度。

消费级GPU优化

在NVIDIA RTX 4090和类似消费级硬體上高效运行,让没有企业级设备的创作者也能轻松用上专业级视频生成能力。

高质量电影级输出

输出电影级质量的视频,拥有更高的视觉保真度、真实光照、专业调色和自然运动模糊,成品质量可媲美传统专业视频制作。

智慧提示词处理

内置先进的提示词扩展和安全检查功能,依托深度语言理解保障理想生成结果,同时兼顾内容适宜性和原始创意意图。

可召回任务系统

内置任务召回功能支持检索待处理或处理中的视频生成任务,提供无缝的工作流连续性和高效的资源管理。

开源可访问性

以Apache 2.0许可发布,提供完整的模型权重和推理代码,方便研究人员和开发者基于该技术开发各类创新应用。

WAN 2.2 常见疑问解答

这里整理了关于WAN 2.2专家混合架构、核心功能与实际使用的高频问题答案

还有其他问题?

WAN 2.2采用创新双专家系统设计,总参数规模达270亿,但每个去噪步骤仅启用140亿参数参与运算。模型拆分出专门的高噪声专家与低噪声专家模块,能在保持顶尖视频生成质量的同时优化计算效率,和传统单模型方案相比,实现了更快的推理速度与更出色的生成效果。
WAN 2.2可生成长度最长5秒(65-257帧)的视频,支持480p和720p分辨率,可灵活配置宽高比(16:9、9:16、1:1、4:3、3:4)。支持8-30 FPS帧率,提供50亿和140亿参数的文本生成视频变体,以及面向图像转视频的高端140亿模型,具备电影级美学控制能力。
WAN 2.2仅支持使用英文提示词,适配多种不同的提示词撰写框架:基础框架为主体+场景+动作,进阶框架可额外增加美学控制与风格设定,图像生成视频框架为动作描述+相机运动。加入具体的影视术语比如「推镜头」「静态镜头」,补充光照描述和风格关键词能获得最佳效果,模型支持单条提示词最多输入512个词元。
WAN 2.2内置了安全检查器与内容过滤系统,可在生成过程中开启使用。模型遵循负责任AI开发实践,自带内容适宜性检查,具体安全措施可根据实际使用需求灵活配置,用户需要在Apache 2.0许可条款范围内保证生成内容符合伦理规范。
WAN 2.2主要提供三个核心变体:50亿参数文本生成视频版本(算力高效,适合普通用户)、A14B文本生成视频版本(高端生成质量,动作控制能力出色)、A14B图像生成视频版本(专门用于图像转动画,视觉一致性更强)。A14B模型能输出质量更好的电影级效果与更高的动作保真度,但需要占用更多计算资源。
WAN 2.2需要较大的计算资源支撑,建议A14B模型在显存80GB以上的系统中运行以获得最佳性能。像RTX 4090这类消费级GPU也可以运行模型,但生成耗时会更长。当前模型的限制包括最长仅支持生成5秒视频、仅支持英文提示词,以及依赖高质量输入提示词才能获得理想结果。

如何使用 WAN 2.2 进行文本生成视频

掌握使用WAN 2.2先进的专家混合架构和电影级控制从文本提示创建专业质量视频的艺术

1
制作您的文本提示词
2
配置视频参数
3
生成和优化

使用WAN 2.2的提示词公式编写详细的英文提示词。使用基础公式(主体+场景+动作)制作简单视频,或使用高级公式(主体描述+场景描述+动作描述+美学控制+风格化)获得专业效果。包含具体的电影术语,如相机角度、光照条件和视觉风格。

如何使用 WAN 2.2 图片转视频

学习如何使用 WAN 2.2 的先进图片转视频生成功能,将静态图片转换为电影级视频

1
上传您的图片
2
编写动作描述
3
生成和下载

上传您想要制作动画的高质量图片(JPEG/PNG)。图片应具有清晰的主体和良好的构图以获得最佳效果。

灵活的 AI 定价

按量付费或订阅计划。无隐藏费用,随时取消。

基础版

开始您的AI之旅

399.99
1 年
USD
90001 月
优先客服支持
抢先体验新功能
5 GB(存储空间)
3(最大项目数)
团队成员
501 月
音频转文字
1001 月
API调用
热门

专业版

提升您的AI体验

799.99
1 年
USD
270001 月
优先客服支持
抢先体验新功能
20 GB(存储空间)
10(最大项目数)
团队成员
1501 月
150 分钟1 月
3001 月
API调用

企业版

为您的团队提供强大支持

1999.99
1 年
USD
750001 月
优先客服支持
抢先体验新功能
100 GB(存储空间)
50(最大项目数)
10(团队成员)
6001 月
600 分钟1 月
12001 月
100001 月