Document
📋 执行摘要
一、项目概览
1.1 定位与愿景
JoyAI-Image 的全称是 "JoyAI-Image: Awakening Spatial Intelligence in Unified Multimodal Understanding and Generation"(唤醒空间智能的统一多模态理解与生成)[3]。
它针对当前视觉 AI 领域的核心痛点——图像理解、文生图、图生图(指令修图)由完全不同的模型架构割裂处理——提出了统一解决方案 [4]。
1.2 发布背景
2026年4月8日,京东探索研究院正式宣布开源 JoyAI-Image-Edit 图像模型。京东高级副总裁何晓冬在接受媒体采访时表示:通用人工智能有两个方向要走——一个是多模态,另一个是具身智能,让通用人工智能走向物理世界 [2]。
1.3 技术论文
项目提供了完整的技术报告 PDF:
📄 论文地址:https://joyai-image.s3.cn-north-1.jdcloud-oss.com/JoyAI-Image.pdf
二、技术架构
2.1 整体架构:8B MLLM + 16B MMDiT
JoyAI-Image 采用双塔协同架构,总参数量约 24B:
┌──────────────────────────────────────────────────────────────┐
│ JoyAI-Image 架构 │
│ │
│ ┌─────────────────────┐ ┌──────────────────────────┐ │
│ │ 8B MLLM │ ───→ │ 16B MMDiT │ │
│ │ (多模态大语言模型) │ │ (多模态扩散Transformer) │ │
│ │ │ │ │ │
│ │ · 图像空间理解 │ │ · 像素级精准生成 │ │
│ │ · 指令解析与分解 │ │ · 遮挡/光影自然处理 │ │
│ │ · 3D空间关系推理 │ │ · 空间一致性保持 │ │
│ │ · 场景语义解析 │ │ · 多视角一致性生成 │ │
│ └─────────────────────┘ └──────────────────────────┘ │
│ │
│ "理解 → 生成 → 编辑" 协同闭环 │
└──────────────────────────────────────────────────────────────┘
2.2 训练数据体系
项目引入了两个核心数据集:
| 数据集 | 用途 | 说明 |
|---|---|---|
| OpenSpatial | 空间理解数据 | 可扩展的空间理解数据管道,覆盖空间位置关系、多视角一致性、相机感知等维度 |
| SpatialEdit | 编辑数据 | 专项编辑训练数据,配合多阶段优化策略 <!--CITE#5 |
训练流程采用多阶段优化策略,逐步提升模型在空间理解、文本渲染、通用编辑等方面的能力 [6]。
三、核心能力详解
3.1 🌍 空间智能(Spatial Intelligence)— 最大亮点
这是 JoyAI-Image-Edit 最具辨识度的能力,也是其区别于所有现有开源图像编辑模型的核心特征。
传统模型的痛点
传统 AI 图像编辑模型存在根本性问题——在 2D 平面上操作,无法真正理解三维空间:
❌ 传统模型的问题:
· 移动物体 → 阴影留在原位,遮挡关系错乱
· 旋转物体 → 视角变了但光照方向没变
· 放大区域 → 物体比例失调
· 替换物体 → 前后关系混乱
JoyAI-Image-Edit 的解决方案
通过让 MLLM 先对图像进行 3D 空间结构分析(物体位置、相机参数、光影方向),再引导 MMDiT 进行符合物理规律的图像生成,从根本上解决空间不一致问题 [2]。
三大空间编辑能力
1️⃣ 物体移动(Object Move)
将指定物体平移至画面中的特定区域,智能处理移动后的阴影和遮挡关系。
# CLI 调用示例
python inference.py \
--ckpt-root /path/to/ckpts_infer \
--image "scene.jpg" \
--prompt "Move the vase on the table to the windowsill"
2️⃣ 物体旋转(Object Rotation)
支持将物体旋转至前视、后视、左前视、右前视等八个标准视角。对于电商产品图生成极为有用 [7]。
# CLI 调用示例
python inference.py \
--ckpt-root /path/to/ckpts_infer \
--image "product.jpg" \
--prompt "Rotate the product to back view"
3️⃣ 相机控制(Camera Control)
在不改变场景内容的前提下,通过自然语言指定相机的偏航角(Yaw)、俯仰角(Pitch)及缩放程度,实现"推拉摇移"的电影级运镜效果。还支持空间漫游——生成在空间中逻辑连贯的多视角图像序列,类似于在三维场景中"走动" [2]。
# CLI 调用示例
python inference.py \
--ckpt-root /path/to/ckpts_infer \
--image "room.jpg" \
--prompt "Tilt the camera up 15 degrees and zoom in"
3.2 📝 长文本渲染 — 解决 AI 绘图"写字"难题
针对 AI 绘图长期以来的顽疾——"文字崩坏",JoyAI-Image 进行了专项优化:
- ✅ 漫画分镜中的密集对白
- ✅ 多行排版的复杂排版文字
- ✅ 手写体保持字符保真度
- ✅ 海报/标牌的精确布局
3.3 🔄 多视角生成与空间推理
通过生成同一场景的不同视角(Novel View Synthesis),不仅能产出更多样的素材,还能反过来增强模型的空间推理能力。当模型难以判断两个物体的前后关系时,生成一个新的侧视角就能让答案一目了然 [1]。
3.4 🛠️ 15 类通用编辑能力
JoyAI-Image-Edit 全面兼容 15 类通用编辑能力,深度覆盖内容创作的高频需求 [2]:
| 类别 | 能力 | 说明 |
|---|---|---|
| 🎯 物体替换 | 用另一物体替换指定目标 | 保持场景一致性 |
| 🗑️ 物体删除 | 智能填充删除区域 | 背景自然补全 |
| ➕ 物体添加 | 在指定位置添加新物体 | 光影/遮挡自然 |
| 🎨 风格迁移 | 切换画面整体艺术风格 | 内容保持,风格变换 |
| ✏️ 细节精修 | 局部区域的高精度修改 | 脉络级精准控制 |
| 📝 文本渲染 | 在图像中精确渲染文字 | 长文本排版支持 |
| 🔄 多视角生成 | 同一场景的新视角合成 | 空间一致性保持 |
| ... | ... | 共 15+ 类能力 |
3.5 🤖 具身智能视觉感知
这是项目最前沿的应用方向。在京东公布的具身智能实测中:
四、环境配置与使用指南
4.1 环境要求
| 组件 | 要求 |
|---|---|
| Python | ≥ 3.10 |
| CUDA | 必需(GPU 推理) |
| flash-attn | ≥ 2.8.0(推荐,用于加速) |
4.2 安装步骤
# 创建虚拟环境
conda create -n joyai python=3.10 -y
conda activate joyai
# 安装依赖
pip install -e .
4.3 推理命令
图像理解(多图对比分析):
python inference_und.py \
--ckpt-root /path/to/ckpts_infer \
--image "test_images/test_1.jpg,test_images/test3.png" \
--prompt "Compare these two images."
图像编辑(指令引导):
python inference.py \
--ckpt-root /path/to/ckpts_infer \
--image "input.jpg" \
--prompt "Turn the plate blue"
4.4 在线体验
对于不想本地部署的用户,fal.ai 已率先集成了 JoyAI-Image-Edit API [8]:
// fal.ai API 调用示例
import { fal } from "@fal-ai/client";
const result = await fal.subscribe("fal-ai/joyai-image-edit", {
input: {
prompt: "Add a red hat to the dog",
image_url: "https://example.com/dog.png"
},
logs: true,
});
五、京东 AI 生态定位
5.1 JoyAI 大模型家族
JoyAI-Image-Edit 是京东 JoyAI 大模型体系的重要组成部分。京东围绕 JoyAI 构建了完整的 AI 技术栈:
京东 JoyAI 生态
│
├── JoyAI-Image(统一多模态图像基础模型)
│ ├── JoyAI-Image-Edit(图像编辑,本次开源)
│ └── [更多子模块待开源]
│
├── JoyInside("附身智能"解决方案)
│ └── 面向智能家电、机器人等终端硬件
│ 植入高情商交互系统
│
└── JoyAI 大模型底层能力
└── 语音、多模态感知等核心能力
5.2 具身智能战略布局
2025年,京东在具身智能领域完成关键布局 [2]:
- JoyInside 平台:面向智能家电、机器人等终端硬件植入高情商交互系统,将 AI 的认知与情感能力深度嵌入硬件终端
- 产业落地:通过开放接口、合作开发等模式,与多家家电及机器人企业达成合作
- 空间智能基座:JoyAI-Image-Edit 的空间理解能力为具身智能提供关键的底层能力——机器人"理解世界"的核心基础
5.3 商业化路径
- Apache-2.0 协议:可自由使用、修改和分发,甚至用于商业闭源产品,仅需保留版权声明
- 多平台分发:HuggingFace + ModelScope + GitHub 三平台覆盖
- API 化服务:已通过 fal.ai 提供云 API,降低开发者接入门槛
- 垂直场景深耕:电商内容生产、3D 模型重建、具身智能视觉感知
六、竞品对比分析
6.1 与主流图像编辑模型对比
| 维度 | JoyAI-Image-Edit | InstructPix2Pix | PowerPaint | SD Inpainting |
|---|---|---|---|---|
| 空间理解 | ✅ 3D 空间分析 | ❌ 2D 平面操作 | ❌ 2D 平面操作 | ❌ 2D 平面操作 |
| 物体移动 | ✅ 阴影/遮挡自适应 | ⚠️ 基础支持 | ⚠️ 基础支持 | ❌ 不支持 |
| 物体旋转 | ✅ 8方向精准旋转 | ❌ 不支持 | ❌ 不支持 | ❌ 不支持 |
| 相机控制 | ✅ Yaw/Pitch/Zoom | ❌ 不支持 | ❌ 不支持 | ❌ 不支持 |
| 长文本渲染 | ✅ 专项优化 | ❌ 一般 | ❌ 一般 | ❌ 一般 |
| 统一建模 | ✅ 理解+生成+编辑 | ❌ 仅编辑 | ❌ 仅编辑 | ❌ 仅修复 |
| 开源协议 | Apache-2.0 | MIT | Apache-2.0 | Various |
| 参数量 | ~24B (8B+16B) | ~1.5B | ~1.5B | ~1.5B-5B |
6.2 核心差异化
JoyAI-Image-Edit 的核心差异化在于:
- 空间智能深度融入:不是后处理的"补丁",而是架构层面的原生支持
- 理解-生成闭环:MLLM 理解指导 MMDiT 生成,生成结果反哺理解
- 统一建模:一个模型同时支持理解、生成、编辑三大任务
- 具身智能基座:空间理解能力可迁移到机器人等物理世界应用
七、应用场景矩阵
| 场景 | 具体应用 | 能力依赖 |
|---|---|---|
| 🛒 电商内容生产 | 产品图多视角生成、场景替换、风格迁移 | 物体旋转、风格迁移 |
| 🎨 创意设计 | 海报设计、长文本排版图像、漫画分镜 | 文本渲染、编辑能力 |
| 🖼️ 智能图像处理 | 复杂空间场景编辑、物体精确操控 | 空间智能全能力 |
| 🏗️ 3D 模型重建 | Novel View Synthesis、多视角一致性 | 多视角生成 |
| 🤖 具身智能 | 机器人视觉感知、空间理解训练 | 空间智能全能力 |
| 💡 AI 应用开发 | 基于此模型构建垂直应用 | API + 开源代码 |
八、GitHub 仓库关键指标
| 指标 | 数值 | 备注 |
|---|---|---|
| Stars | 233+ | 开源仅数天 |
| Forks | 0 | 模型权重在 HuggingFace |
| Watchers | 1 | — |
| Contributors | 9 | 核心开发团队 |
| Issues | 0 | 刚开源 |
| Pull Requests | 0 | — |
| Releases | 0 | 尚未发布版本 |
| Branches | 1 | main |
| Tags | 0 | — |
| License | Apache-2.0 | 可免费商用 |
| Language | Python 100% | — |
九、快速访问指南
| 资源 | 链接 |
|---|---|
| 🔧 GitHub 主页 | github.com/jd-opensource/JoyAI-Image |
| 🤗 HuggingFace 权重 | huggingface.co/jdopensource/JoyAI-Image-Edit |
| 📄 技术论文 PDF | JoyAI-Image.pdf |
| ☁️ fal.ai API | fal.ai/models/fal-ai/joyai-image-edit |
| 📦 ModelScope | modelscope.cn(搜索 JoyAI-Image-Edit) |
十、总结与评价
10.1 核心价值
它将 AI 图像编辑从平面修图升级为三维空间重塑,是开源社区在多模态统一建模方向上的重要里程碑 [4]。
10.2 技术亮点
- 架构创新:8B MLLM + 16B MMDiT 的双塔协同,理解和生成深度耦合
- 空间智能原生支持:从数据(OpenSpatial/SpatialEdit)到架构到任务的全链路空间建模
- 统一建模:一个模型覆盖理解、生成、编辑三大任务
- 实用导向:蒸馏版本、多平台分发、API 化服务
10.3 关注点
- 项目刚开源(2026年4月初),社区生态尚在建设中(Stars 233+,Forks 0,Issues 0)
- 模型参数量较大(~24B),推理资源需求高
- 目前仅有编辑子模块开源,文生图等模块尚未放出
- 论文详细评测数据需阅读完整 PDF
Sources
主要来源
- GitHub Repository - jd-opensource/JoyAI-Image - 官方源代码和文档
- HuggingFace - jdopensource/JoyAI-Image-Edit - 模型权重和推理代码
- JoyAI-Image 技术论文 PDF - 完整技术报告
- GitHub README.md - 项目文档
媒体报道
- 新京报 - 京东开源图像模型,实测AI如何能真正"看懂"空间 - 京东官方采访与产品实测
- 东方财富 - 京东开源图像模型 - 财经媒体视角
技术社区
- 稀土掘金 - 王炸!京东宣布,正式开源 - 技术深度解析
- 知乎专栏 - 开源AI图像编辑新星来了!京东开源项目JoyAI-Image - 社区讨论
- 智者邦 - 京东开源图像模型JoyAI-Image-Edit - 数据训练方案解读
API 平台
- fal.ai - JoyAI Image Edit API - 在线 API 服务
- fal.ai API 文档 - API 接入指南