10+年产品经理聊聊产品、测测产品,产品人交流学习成长平台,按 Ctrl+D 收藏我们
关于我 留言板 小程序 标签云

苏米客

  • 首页
  • AIGC
    • AI最新动态
    • AI学习教程
    • AI工具集合
    • AI产品百科
    • AI编程开发
    • AI提示词
    • AI开源项目
    • AI智能体
  • Axure
    • Axure动态
    • Axure教程
  • 产品
    • 用户体验
    • 产品设计
    • 苏米杂谈
  • 资源
    • 产品UI组件库
    • 开源图标库
    • 中后台框架
  • 书单
    • AI书籍
    • 用户体验
    • UI视觉
    • 产品研究
    • 其他类型
  • 下载
    • Axure组件
    • Axure原型
    • 文档报告
    • 素材资源
  • 登录
  • 首页
  • AIGC
    • AI最新动态
    • AI学习教程
    • AI工具集合
    • AI产品百科
    • AI编程开发
    • AI提示词
    • AI开源项目
    • AI智能体
  • Axure
    • Axure动态
    • Axure教程
  • 产品
    • 用户体验
    • 产品设计
    • 苏米杂谈
  • 资源
    • 产品UI组件库
    • 开源图标库
    • 中后台框架
  • 书单
    • AI书籍
    • 用户体验
    • UI视觉
    • 产品研究
    • 其他类型
  • 下载
    • Axure组件
    • Axure原型
    • 文档报告
    • 素材资源
当前位置: 首页 » AI开源项目

JoyAI-Echo开源:京东5分钟长视频生成框架,角色不崩+对话式编辑

2小时前 AI开源项目 10 0

京东最近在 AI 视频赛道发布了 JoyAI-Echo,一个专为分钟级多镜头故事生成设计的长音视频生成框架。目前已在 GitHub 和 Hugging Face 全面开源。

JoyAI-Echo 直接针对 AI 长视频生成的三大核心痛点:角色容易变脸、声音忽高忽低、生成速度慢。它不仅能生成最长 5 分钟的连续故事视频,角色身份、视觉形象和声音音色在整个过程中保持高度一致,还支持用自然语言进行局部修改,无需重跑整条视频。

图片 1

核心技术创新

1. 跨模态音视频记忆库

JoyAI-Echo 内置了专门的记忆机制,通过 Slot-Paired 机制将视觉记忆与音频记忆绑定存储。在多镜头生成过程中,记忆库持续保存并调用角色的面部特征、整体外观、说话人音色以及音画对应关系,确保 5 分钟长视频中角色不崩、声音不飘。

2. 7.5 倍推理加速

通过记忆驱动后训练与 Distribution Matching Distillation(DMD)技术,实现了约 7.5 倍的推理加速。研发团队创新提出了一套记忆驱动的后训练流程,结合监督微调(SFT)、跨模态 RLHF 及 DMD 技术,将多步扩散推理压缩为少步推理,大幅提升生成速度。

3. 对话式编辑

引入智能"导演助理"——Director Agent,让长视频第一次实现"对话式编辑"。用自然语言说需求,它会自动拆分成剧本、角色、场景和镜头。哪里不满意,直接用对话方式告诉它修改,只重新生成有问题的局部镜头,不用重跑整条视频。

4. 实时超分模块

配套专门的实时超分模块,支持两档分辨率提升:

  • 736×1280 → 1152×1920
  • 736×1280 → 1472×2560

通过单步超分就能生成高分辨率视频和精细化音频,即使在流式延迟约束下也能保持稳定的高清表现。

快速上手

1. 克隆仓库

git clone https://github.com/jd-opensource/JoyAI-Echo.git
cd JoyAI-Echo

2. 创建环境

参考环境:Python 3.11 + PyTorch 2.8 + CUDA 12.8

使用 conda:

conda env create -f environment.yml
conda activate echo-long

或使用 uv:

uv venv --python 3.11 .venv
source .venv/bin/activate
uv pip install --extra-index-url https://download.pytorch.org/whl/cu128 -r requirements.txt

注意:ffmpeg 必须在 PATH 中可用(用于镜头拼接)。

# Ubuntu/Debian
sudo apt install ffmpeg
# macOS
brew install ffmpeg

3. 下载权重

下载 JoyAI-Echo 发布检查点和 Gemma 文本编码器,放在 checkpoints/ 目录下:

文件 描述 大小
echo-longvideo-release.safetensors 完整模型(transformer + VAE + vocoder) ~46 GB
gemma-3-12b-it 指令微调模型(文本编码器) ~24 GB
checkpoints/
+-- echo-longvideo-release.safetensors
`-- gemma-3-12b/

4. 编写故事提示词

项目提供了提示词增强器,将简短的故事扩展为结构良好的镜头提示词:

  • prompts/long_story_writer_system_prompt.md:用于长、多镜头视频
  • prompts/short_story_writer_system_prompt.md:用于单镜头短视频

在 prompts/ 下创建 JSON 文件,每个字符串是一个完整镜头。每个字符串中按顺序编写:

部分 描述
角色与主体 描述所有可见人物的外观,包括年龄、体型、发型、面部、服装,以及适用时的说话音色
动作与对话 主体做什么和说什么
风格 整体视觉和情感美学
镜头运动 镜头类型和构图或运动
背景 主体背后的设置和场景细节
音效与 BGM 场景中的声音和背景音乐

5. 运行推理

python inference.py

这会加载模型一次,并处理 prompts/ 下的所有提示文件。

注意:推理管道针对低 VRAM GPU 优化。默认设置(25 fps × 241 帧 × 1280 × 736)下,峰值 GPU 使用量约为 46–50 GB。

总结

JoyAI-Echo 用四项实打实的技术创新,打破了长视频生成的"三角问题":跨模态音视频记忆库解决角色变脸、DMD 蒸馏技术实现 7.5 倍加速、Director Agent 带来对话式编辑、轻量化实时超分保证高清输出。

苏米注:这个项目对长视频创作者来说很有价值。46-50GB 的 VRAM 需求意味着需要高端 GPU(如 A100 80GB),但开源权重和 ComfyUI 节点集成降低了使用门槛。如果硬件条件允许,值得尝试。

相关链接

GitHub:github.com/jd-opensource/JoyAI-Echo

声明:本站原创文章文字版权归本站所有,转载务必注明作者和出处;本站转载文章仅仅代表原作者观点,不代表本站立场,图文版权归原作者所有。如有侵权,请联系我们删除。
未经允许不得转载:JoyAI-Echo开源:京东5分钟长视频生成框架,角色不崩+对话式编辑
#JoyAI-Echo # 视频生成 # 开源项目 # 京东 # 长视频 
收藏 1
GLM-5.1免费接入指南:Modal无限token用量,1分钟配置Claude Code
DeepSeek-GUI深度体验:从想法到计划,AI项目管理新范式
推荐阅读
  • NanoClaw:用 4000 行覆盖 OpenClaw 核心的极简之道,首个支持 Agent Swarms(智能体集群) 的 AI 助手
  • Google大神开源Agent Skills:用Google工程师的工作流约束AI,9个Skills让代码偷懒无所遁形
  • Vue Skills 发布:尤雨溪分享的这个vue-skills到底有多重要!
  • Quotio:macOS 菜单栏,聚合 Claude、Gemini、OpenAI等订阅,实时配额监控+智能切换
  • Serena:让 Claude Code 拥有 IDE 级别的代码理解与编辑能力
评论 (0)
请登录后发表评论
分类精选
OpenSpec:比 Cursor Plan 更聪明?试试这款让 AI 编码更靠谱的规范驱动工具
9555 7月前
WeKnora:终于等到了腾讯ima的开源知识库框架,用 API 轻松打造本地智能文档检索
9428 9月前
Antigravity-Manager:这个开源神器让你白嫖ClaudeOpus 4.5,Gemini 3!还能接Claude Code等任意平台
7396 5月前
awesome-openclaw-skills:700+ Skills 一条命令装配完成,如何让本地 AI Agent 真正落地可用
6558 4月前
AIRI:你的开源AI女友,让你随时拥有属于自己的 AI VTuber
6442 9月前
CompressO:开源免费的视频压缩神器,让你的硬盘瞬间轻松 10 倍
6342 8月前
CapCut API:一个剪映API开源项目,让AI自动剪辑视频
6314 5月前
就要创作:从提示词到创作团队,开源 AI 网文写作平台
6262 8月前
iFlow CLI:让命令行终端不止于编程的AI效率开源神器
5731 9月前
Composio:让AI Agent自动完成工作任务,能让AI一键操控你的所有软件
5662 8月前

文章目录

关注「苏米客」公众号

订阅推送更及时,手机查看更方便
分类排行
1 BrowserAct:让 AI突破反爬虫检测的浏览器自动化 Skill
2 HyperFrames 与 html-video:两个 HTML 生成视频的开源项目对比
3 JoyAI-Echo开源:京东5分钟长视频生成框架,角色不崩+对话式编辑
4 docx-editor:浏览器端直接编辑 Word 的开源编辑器
5 花园开源4个神级Agent Skills:视频网页图片知识库
6 Odysseus:PewDiePie开源AI工作台一周5万Star
7 CopilotKit 开源:33.6K Star 的 Agentic App 基础设施,AG-UI 协议全解析
8 DeepSeek-GUI 开源:1300+ Star 的非官方桌面端,让 Agent 交互更直观
9 Ant Design Pro :2026 年企业级 React 应用的标准方案
10 HTML版剪映来了:OpenDesign团队开源HTML-Video
©2015-2024 苏米客XMSUMI 版权所有 · WWW.XMSUMI.COM 闽ICP备14005900号-6
微信文章助手 程序库 免费影视APP 免费字体下载 Axure RP 10 免费Axure模板 Axure元件库下载 申请友联