进入全球第一梯队!京东开源JoyAI-Echo框架 长视频生成“所想即所得”时代到来

2026年06月04日 10:13 来源:京东集团

6月3日,京东宣布开源JoyAI-Echo长音视频生成框架。JoyAI-Echo解决了行业三大痛点:角色难稳定一致、音色变化难控制、视频生成速度慢,实现了长视频生成“又快又好”。此外,JoyAI-Echo的“边聊边改”模式,让视频创作从 "静态生成" 变成 "动态协作"。

进入全球第一梯队!京东开源JoyAI-Echo框架 长视频生成“所想即所得”时代到来

JoyAI-Echo在各类视频创作、数字人直播、品牌营销、教育和游戏内容生产等领域有巨大的应用潜力,它的推出,标志着京东在长视频生成领域实现重大突破,进入全球第一梯队。

四大技术创新 解决长视频生成三大难题

在AI视频领域,十几秒短视频的生成质量越来越成熟,但行业头疼的瓶颈依然存在:难以向分钟级长视频突破。AI视频一但拉到这一时长,就会出现以下问题:同一个角色,在不同镜头里长得不一样;说话人的音色忽高忽低甚至突然变声;生成速度慢到离谱,等几分钟甚至半小时才能出结果。

以上问题,直接导致 AI 长视频停留在 "玩具" 阶段,很难真正投入生产、创造价值。JoyAI-Echo 的出现,彻底打破这个僵局。JoyAI-Echo 有四项技术创新:

一是跨模态音视频记忆库,让角色再也不 "变脸"。这也是JoyAI-Echo 最关键的突破。模型框架内置了一个专门的记忆库,能在多镜头生成过程中,持续保存并调用角色的外观特征和说话人音色信息。在长达 5 分钟的视频里,角色身份、视觉形象和声音音色都能保持高度一致,再也不会出现 "同一个人演着演着变成另一个人" 的尴尬情况。

二是记忆驱动后训练,速度直接提升 7.5 倍。研发团队创新提出了记忆驱动后训练流程,结合 SFT、跨模态 RLHF 和 Distribution Matching Distillation(DMD)技术,大幅提升了生成质量,更实现了惊人的推理加速。

其中,仅 DMD 一项技术就带来了约 7.5 倍的速度提升,让长视频生成从 "等半天" 变成 "秒出片"。

三是加入智能 "导演助理"——Director Agent,让长视频第一次实现 "对话式编辑"。JoyAI-Echo 不再是 "输入提示词,一次性出结果" 的传统工具。你用自然语言说需求,它会自动帮你拆分成剧本、角色、场景和镜头。哪里不满意,直接用对话的方式告诉它修改,它只重新生成有问题的局部镜头,不用重跑整条视频,让长视频创作从 "静态生成" 变成了 "动态协作"。

四是轻量化实时超分,高清输出不卡顿。为了满足专业内容生产的需求,JoyAI-Echo 配套了专门的实时超分模块,支持两档分辨率提升(736×1280 → 1152×1920,736×1280 → 1472×2560)。模块通过单步超分就能生成高分辨率视频和精细化音频,即使在流式延迟的约束下,也能保持稳定的高清表现。

各项指标全面领先行业 “AI 长视频时代"到来

为了客观评估 JoyAI-Echo 的性能,研发团队基于 100 个故事、3000 个镜头构建了长音视频生成评测集,从多个维度进行了全面测试。结果显示,JoyAI-Echo 在跨镜头一致性、视频质量、文本一致性和语音内容准确率等所有核心指标上都取得了领先表现,其中语音内容准确率更是高达0.8646,大幅领先行业其它同类模型。

在与行业同类模型对比中,用户认为JoyAI-Echo音频质量偏好的比例为81.7%,提示词遵循偏好为80.6%,视觉美学偏好为63.6%,IP 一致性偏好为59.4%。

JoyAI-Echo 的推出,意味着AI 视频生成的 "长视频时代"来了。它为虚拟故事创作和动漫制作、数字人内容生产和直播、品牌营销视频快速迭代、互动教育课件生成等领域带来了全新可能,将大幅优化行业成本效率。JoyAI-Echo也预示着未来人类可以像聊天一样,持续创作、修改和完善长视频内容,让高一致性、高画质、可交互的视频生成,真正走进每一个内容创作者的工作流程。

京东宣布,JoyAI-Echo 的代码与权重已全部开源,目前项目页和 GitHub 代码仓库已经正式上线,供开发者和创作者体验:

责任编辑:wd

免责声明:证券市场周刊力求信息真实、准确,文章提及内容仅供参考,网站所示信息出于传播之目的,不代表证券市场周刊观点,亦无法保证该等信息的准确性和完整性,不构成实质性投资建议,据此操作风险自担。

广告

Copyright 《证券市场周刊》杂志社(北京)有限公司 All RightReserved 版权所有 [京ICP备2022020594号-15] 京公网安备11010102000187号