ITCOW牛新网 6月17日消息,马斯克旗下 xAI 公司今日正式宣布,Grok Imagine Video 1.5 视频生成模型结束预览阶段,起以 grok-imagine-video-1.5的模型名称在 xAI API 中全面上线。这款新版本主打”静态图片一键生成带同步音频的短视频”,相较前代预览版在音画对齐、运动物理感及生成速度上均有显著升级,进一步拉近了 AI 生成视频与实用创作工具间的距离。


新模型最大的体验跃升在于原生支持音画同步生成。用户在单次调用中即可同时获得配好音效、环境声及人物对话的视频输出,系统会自动将音频波形与画面动作精准对齐——包括人物说话时的口型匹配与清晰度优化,省去了后期再单独配音或对齐时间轴的繁琐工序,特别适合需要带旁白或环境氛围的短片制作。

据ITCOW牛新网了解,Grok Imagine Video 1.5 对运动连贯性与物理真实性也做了针对性增强。模型现在能更好地模拟重量感与动量,比如人物步行时衣摆的自然飘动、下落物体符合加速度的轨迹变化,明显减少了以往 AI 视频中常见的肢体扭曲、物体悬浮等穿帮现象,整体观感更接近真实拍摄素材。速度方面同样不遑多让——在 Fast 模式下生成一段 6 秒、720P 分辨率的短视频仅需约 25 秒,比前代 40 秒以上的耗时缩短近四成。开发者可通过上传起始参考图、描述期望的运动方式,并指定分辨率与时长来直接调用该接口,将图生视频能力快速集成进自己的应用或工作流中。