ITCOW牛新网 12月16日消息,阿里今日推出新一代万相 2.6 系列模型,该系列针对专业影视制作和图像创作场景进行了全面优化。作为国内首个集成角色扮演功能的视频生成模型,万相 2.6 同时支持音画同步、多镜头生成及音频驱动等特性,被官方称为全球功能最全面的视频生成解决方案。该模型已同步在阿里云百炼平台和万相官网上线。

据ITCOW牛新网了解,万相 2.6 在视频生成方面具备多项创新功能。角色扮演功能允许模型参考输入视频中的角色外观和音色,根据提示词生成单人、多人或人与物互动的视频内容。多镜头叙事能力可将简单提示词转换为多分镜脚本,生成连贯的叙事视频并保持主体和场景的一致性。此外,模型在多人对话场景中能实现自然的音画同步,提升人声质感和音乐生成效果,支持最长15秒的视频生成,增强叙事完整性。音频驱动生成功能则允许用户通过文本和音频输入来生成多镜头视频。
在文生图方面,万相 2.6 强调艺术风格的高度可控性,能精准捕捉各类风格关键词,实现多种艺术风格的平滑融合,并在肌理、色彩等细节上呈现更生动的表现力。写实人像生成优化了人物神态和肤质,削弱AI感,同时提升构图和光影效果。模型还支持根据中英文长文本生成海报、信息图表等设计内容,确保内容与视觉的统一。
图像生成功能新增图文混排输出,具备逻辑推理能力,实现有层次的视觉叙事。多图融合生成支持任意参考、组合或替换多张图片,融合视觉灵感生成新图像。商用级一致性保持功能确保角色、风格或元素的高度统一,拓展商业应用场景。美学要素迁移可提取参考图的颜色、风格等灵感,实现精准的镜头视角和光影控制,增强画面空间与氛围的调控能力。