ITCOW牛新网 6月4日消息,京东于昨日推出了名为 JoyAI-Echo 的开源长音视频生成框架,这一技术突破标志着京东在长视频生成领域已跻身全球第一梯队。该框架旨在系统性解决长期以来困扰行业的“角色易崩、声音乱变、生成缓慢”三大核心痛点,通过一系列技术创新,让 AI 生成分钟级连贯故事成为可能,不再局限于短平快的短视频玩具阶段。

该框架内置了一个专门的跨模态记忆库,能够在多镜头生成过程中持续保存并精准调用角色的外观特征和说话人音色信息。实测数据显示,在长达 5 分钟的视频生成任务中,无论是人物的身份、视觉形象还是声音音色,都能保持高度统一,彻底杜绝了传统模型中常见的“演着演着变成另一个人”的尴尬情况。此外,研发团队还提出了记忆驱动后训练流程,结合监督微调、跨模态强化学习及分布匹配蒸馏技术,不仅提升了生成质量,更实现了显著的推理加速,其中仅 DMD 技术就带来了约 7.5 倍的速度提升,让长视频生成从“等半天”变为“秒出片”。
据 ITCOW牛新网了解,JoyAI-Echo 还配备了一个智能“导演助理”,即 Director Agent。用户只需通过自然语言描述需求,系统即可自动拆分成剧本、角色、场景和镜头,并支持对话式编辑。如果创作者对某个片段不满意,无需像传统流程那样重跑整条视频,只需指定修改范围,系统便会仅重新生成有问题的局部镜头,极大地降低了创作门槛与时间成本。同时,框架还配套了轻量化实时超分模块,支持将 736×1280 的基础画质单步提升至 1152×1920 或 1472×2560,确保在流式延迟约束下依然能稳定输出高分辨率视频与精细化音频。目前,该项目的代码与权重已全部开源,开发者可在 GitHub 及项目主页获取相关资源进行二次开发。