京东开源 JoyAI-Echo 长视频框架，攻克角色崩坏难题实现秒级生成

6 月 4, 2026 #JoyAI-Echo, #京东

ITCOW牛新网 6月4日消息，京东于昨日推出了名为 JoyAI-Echo 的开源长音视频生成框架，这一技术突破标志着京东在长视频生成领域已跻身全球第一梯队。该框架旨在系统性解决长期以来困扰行业的“角色易崩、声音乱变、生成缓慢”三大核心痛点，通过一系列技术创新，让 AI 生成分钟级连贯故事成为可能，不再局限于短平快的短视频玩具阶段。

京东开源 JoyAI-Echo 长视频框架

该框架内置了一个专门的跨模态记忆库，能够在多镜头生成过程中持续保存并精准调用角色的外观特征和说话人音色信息。实测数据显示，在长达 5 分钟的视频生成任务中，无论是人物的身份、视觉形象还是声音音色，都能保持高度统一，彻底杜绝了传统模型中常见的“演着演着变成另一个人”的尴尬情况。此外，研发团队还提出了记忆驱动后训练流程，结合监督微调、跨模态强化学习及分布匹配蒸馏技术，不仅提升了生成质量，更实现了显著的推理加速，其中仅 DMD 技术就带来了约 7.5 倍的速度提升，让长视频生成从“等半天”变为“秒出片”。

据 ITCOW牛新网了解，JoyAI-Echo 还配备了一个智能“导演助理”，即 Director Agent。用户只需通过自然语言描述需求，系统即可自动拆分成剧本、角色、场景和镜头，并支持对话式编辑。如果创作者对某个片段不满意，无需像传统流程那样重跑整条视频，只需指定修改范围，系统便会仅重新生成有问题的局部镜头，极大地降低了创作门槛与时间成本。同时，框架还配套了轻量化实时超分模块，支持将 736×1280 的基础画质单步提升至 1152×1920 或 1472×2560，确保在流式延迟约束下依然能稳定输出高分辨率视频与精细化音频。目前，该项目的代码与权重已全部开源，开发者可在 GitHub 及项目主页获取相关资源进行二次开发。

相关文章

小米 MiMo Code 宣布 7 月 26 日结束限免转 Token 订阅，首订享 88 折接入多模型端侧编程助手

Claude Cowork 上线“录制技能”功能：屏幕演示加语音讲解自动生成可复用 Agent Skill

Claude Code Mac 版内置 iOS 模拟器：免辅助功能权限直连调试，AI 编程闭环收口本地工作台

更多资讯

极氪回应“跨境自驾被锁车机”：海外定位触发行业通用防盗提示，强提示已解除且不影响驾驶

2026年 7月 23日

一枚SpaceX 猎鹰9号火箭将于8月5日撞月，时速8690公里落点爱因斯坦坑附近美洲部分地区可观测

2026年 7月 23日

荣耀揭晓全新品牌标识「荣耀之环」与主张「敢想，敢不同」

2026年 7月 23日

小米 MiMo Code 宣布 7 月 26 日结束限免转 Token 订阅，首订享 88 折接入多模型端侧编程助手

2026年 7月 23日