Document

📅 2026-04-10 📄 技术文档
💡 信息
研究日期:2026年4月9日
研究对象jd-opensource/JoyAI-Image
报告版本:v1.0
研究方法:多源信息采集 + 交叉验证

01

📋 执行摘要

JoyAI-Image 是京东探索研究院自研的统一多模态基础模型,于 2026年4月初 正式开源,实现了图像理解、文生图、指令引导图像编辑三大能力的统一建模 [1]。其子模块 JoyAI-Image-Edit 是业内首个将"空间智能"深度融入底层架构的开源图像编辑模型,支持物体空间移动、旋转、相机视角控制等三维空间操作 [2]

核心数据

指标 数值
GitHub Stars 233+(开源仅数天)
Contributors 9 人
开源协议 Apache-2.0(可免费商用)
编程语言 Python 100%
在线体验 fal.ai 已集成 API

02

一、项目概览

1.1 定位与愿景

JoyAI-Image 的全称是 "JoyAI-Image: Awakening Spatial Intelligence in Unified Multimodal Understanding and Generation"(唤醒空间智能的统一多模态理解与生成)[3]

它针对当前视觉 AI 领域的核心痛点——图像理解、文生图、图生图(指令修图)由完全不同的模型架构割裂处理——提出了统一解决方案 [4]

1.2 发布背景

2026年4月8日,京东探索研究院正式宣布开源 JoyAI-Image-Edit 图像模型。京东高级副总裁何晓冬在接受媒体采访时表示:通用人工智能有两个方向要走——一个是多模态,另一个是具身智能,让通用人工智能走向物理世界 [2]

1.3 技术论文

项目提供了完整的技术报告 PDF:
📄 论文地址:https://joyai-image.s3.cn-north-1.jdcloud-oss.com/JoyAI-Image.pdf


03

二、技术架构

2.1 整体架构:8B MLLM + 16B MMDiT

JoyAI-Image 采用双塔协同架构,总参数量约 24B:

┌──────────────────────────────────────────────────────────────┐
│                    JoyAI-Image 架构                          │
│                                                              │
│   ┌─────────────────────┐      ┌──────────────────────────┐  │
│   │    8B MLLM          │ ───→ │    16B MMDiT             │  │
│   │  (多模态大语言模型)   │      │  (多模态扩散Transformer) │  │
│   │                     │      │                          │  │
│   │  · 图像空间理解      │      │  · 像素级精准生成         │  │
│   │  · 指令解析与分解    │      │  · 遮挡/光影自然处理      │  │
│   │  · 3D空间关系推理    │      │  · 空间一致性保持         │  │
│   │  · 场景语义解析      │      │  · 多视角一致性生成       │  │
│   └─────────────────────┘      └──────────────────────────┘  │
│                                                              │
│              "理解 → 生成 → 编辑" 协同闭环                    │
└──────────────────────────────────────────────────────────────┘
  • 8B MLLM(多模态大语言模型):负责图像的空间理解、场景解析、关系定位和指令分解。它不仅"看到"图像,更理解图像中物体的位置、光影关系、遮挡关系和空间结构 [4]
  • 16B MMDiT(多模态扩散 Transformer):在扩散模型架构下执行像素级精准操作。相比传统 U-Net 架构,MMDiT 在处理长文本提示词和复杂几何变换时更具优势 [4]

2.2 训练数据体系

项目引入了两个核心数据集:

数据集 用途 说明
OpenSpatial 空间理解数据 可扩展的空间理解数据管道,覆盖空间位置关系、多视角一致性、相机感知等维度
SpatialEdit 编辑数据 专项编辑训练数据,配合多阶段优化策略 <!--CITE#5

训练流程采用多阶段优化策略,逐步提升模型在空间理解、文本渲染、通用编辑等方面的能力 [6]

2.3 蒸馏版本

项目提供了蒸馏版本(Distilled),在保证效果的同时大幅提升了推理速度,兼顾了研究探索与生产落地的需求 [4]


04

三、核心能力详解

3.1 🌍 空间智能(Spatial Intelligence)— 最大亮点

这是 JoyAI-Image-Edit 最具辨识度的能力,也是其区别于所有现有开源图像编辑模型的核心特征。

传统模型的痛点

传统 AI 图像编辑模型存在根本性问题——在 2D 平面上操作,无法真正理解三维空间

❌ 传统模型的问题:
  · 移动物体 → 阴影留在原位,遮挡关系错乱
  · 旋转物体 → 视角变了但光照方向没变
  · 放大区域 → 物体比例失调
  · 替换物体 → 前后关系混乱

JoyAI-Image-Edit 的解决方案

通过让 MLLM 先对图像进行 3D 空间结构分析(物体位置、相机参数、光影方向),再引导 MMDiT 进行符合物理规律的图像生成,从根本上解决空间不一致问题 [2]

三大空间编辑能力

1️⃣ 物体移动(Object Move)

将指定物体平移至画面中的特定区域,智能处理移动后的阴影和遮挡关系。

# CLI 调用示例
python inference.py \
  --ckpt-root /path/to/ckpts_infer \
  --image "scene.jpg" \
  --prompt "Move the vase on the table to the windowsill"

2️⃣ 物体旋转(Object Rotation)

支持将物体旋转至前视、后视、左前视、右前视等八个标准视角。对于电商产品图生成极为有用 [7]

# CLI 调用示例
python inference.py \
  --ckpt-root /path/to/ckpts_infer \
  --image "product.jpg" \
  --prompt "Rotate the product to back view"

3️⃣ 相机控制(Camera Control)

在不改变场景内容的前提下,通过自然语言指定相机的偏航角(Yaw)、俯仰角(Pitch)及缩放程度,实现"推拉摇移"的电影级运镜效果。还支持空间漫游——生成在空间中逻辑连贯的多视角图像序列,类似于在三维场景中"走动" [2]

# CLI 调用示例
python inference.py \
  --ckpt-root /path/to/ckpts_infer \
  --image "room.jpg" \
  --prompt "Tilt the camera up 15 degrees and zoom in"

3.2 📝 长文本渲染 — 解决 AI 绘图"写字"难题

针对 AI 绘图长期以来的顽疾——"文字崩坏",JoyAI-Image 进行了专项优化:

  • ✅ 漫画分镜中的密集对白
  • ✅ 多行排版的复杂排版文字
  • ✅ 手写体保持字符保真度
  • ✅ 海报/标牌的精确布局

3.3 🔄 多视角生成与空间推理

通过生成同一场景的不同视角(Novel View Synthesis),不仅能产出更多样的素材,还能反过来增强模型的空间推理能力。当模型难以判断两个物体的前后关系时,生成一个新的侧视角就能让答案一目了然 [1]

3.4 🛠️ 15 类通用编辑能力

JoyAI-Image-Edit 全面兼容 15 类通用编辑能力,深度覆盖内容创作的高频需求 [2]

类别 能力 说明
🎯 物体替换 用另一物体替换指定目标 保持场景一致性
🗑️ 物体删除 智能填充删除区域 背景自然补全
➕ 物体添加 在指定位置添加新物体 光影/遮挡自然
🎨 风格迁移 切换画面整体艺术风格 内容保持,风格变换
✏️ 细节精修 局部区域的高精度修改 脉络级精准控制
📝 文本渲染 在图像中精确渲染文字 长文本排版支持
🔄 多视角生成 同一场景的新视角合成 空间一致性保持
... ... 共 15+ 类能力

3.5 🤖 具身智能视觉感知

这是项目最前沿的应用方向。在京东公布的具身智能实测中:

✅ 提示
用户仅需输入自然语言提示词(如"机器人左手举起来"),并通过画框框选目标区域,即可对指定物体的动作、姿态、旋转角度进行精细化操控。在机器人做家务的实拍场景中,模型在完整保留背景环境、物体空间关系与物理合理性的前提下,生成了机器人抬手的全新姿态 [2]

05

四、环境配置与使用指南

4.1 环境要求

组件 要求
Python ≥ 3.10
CUDA 必需(GPU 推理)
flash-attn ≥ 2.8.0(推荐,用于加速)

4.2 安装步骤

# 创建虚拟环境
conda create -n joyai python=3.10 -y
conda activate joyai

# 安装依赖
pip install -e .

4.3 推理命令

图像理解(多图对比分析):

python inference_und.py \
  --ckpt-root /path/to/ckpts_infer \
  --image "test_images/test_1.jpg,test_images/test3.png" \
  --prompt "Compare these two images."

图像编辑(指令引导):

python inference.py \
  --ckpt-root /path/to/ckpts_infer \
  --image "input.jpg" \
  --prompt "Turn the plate blue"

4.4 在线体验

对于不想本地部署的用户,fal.ai 已率先集成了 JoyAI-Image-Edit API [8]

// fal.ai API 调用示例
import { fal } from "@fal-ai/client";

const result = await fal.subscribe("fal-ai/joyai-image-edit", {
  input: {
    prompt: "Add a red hat to the dog",
    image_url: "https://example.com/dog.png"
  },
  logs: true,
});

06

五、京东 AI 生态定位

5.1 JoyAI 大模型家族

JoyAI-Image-Edit 是京东 JoyAI 大模型体系的重要组成部分。京东围绕 JoyAI 构建了完整的 AI 技术栈:

京东 JoyAI 生态
    │
    ├── JoyAI-Image(统一多模态图像基础模型)
    │   ├── JoyAI-Image-Edit(图像编辑,本次开源)
    │   └── [更多子模块待开源]
    │
    ├── JoyInside("附身智能"解决方案)
    │   └── 面向智能家电、机器人等终端硬件
    │       植入高情商交互系统
    │
    └── JoyAI 大模型底层能力
        └── 语音、多模态感知等核心能力

5.2 具身智能战略布局

2025年,京东在具身智能领域完成关键布局 [2]

  1. JoyInside 平台:面向智能家电、机器人等终端硬件植入高情商交互系统,将 AI 的认知与情感能力深度嵌入硬件终端
  2. 产业落地:通过开放接口、合作开发等模式,与多家家电及机器人企业达成合作
  3. 空间智能基座:JoyAI-Image-Edit 的空间理解能力为具身智能提供关键的底层能力——机器人"理解世界"的核心基础

5.3 商业化路径

  • Apache-2.0 协议:可自由使用、修改和分发,甚至用于商业闭源产品,仅需保留版权声明
  • 多平台分发:HuggingFace + ModelScope + GitHub 三平台覆盖
  • API 化服务:已通过 fal.ai 提供云 API,降低开发者接入门槛
  • 垂直场景深耕:电商内容生产、3D 模型重建、具身智能视觉感知

07

六、竞品对比分析

6.1 与主流图像编辑模型对比

维度 JoyAI-Image-Edit InstructPix2Pix PowerPaint SD Inpainting
空间理解 ✅ 3D 空间分析 ❌ 2D 平面操作 ❌ 2D 平面操作 ❌ 2D 平面操作
物体移动 ✅ 阴影/遮挡自适应 ⚠️ 基础支持 ⚠️ 基础支持 ❌ 不支持
物体旋转 ✅ 8方向精准旋转 ❌ 不支持 ❌ 不支持 ❌ 不支持
相机控制 ✅ Yaw/Pitch/Zoom ❌ 不支持 ❌ 不支持 ❌ 不支持
长文本渲染 ✅ 专项优化 ❌ 一般 ❌ 一般 ❌ 一般
统一建模 ✅ 理解+生成+编辑 ❌ 仅编辑 ❌ 仅编辑 ❌ 仅修复
开源协议 Apache-2.0 MIT Apache-2.0 Various
参数量 ~24B (8B+16B) ~1.5B ~1.5B ~1.5B-5B

6.2 核心差异化

JoyAI-Image-Edit 的核心差异化在于:

  1. 空间智能深度融入:不是后处理的"补丁",而是架构层面的原生支持
  2. 理解-生成闭环:MLLM 理解指导 MMDiT 生成,生成结果反哺理解
  3. 统一建模:一个模型同时支持理解、生成、编辑三大任务
  4. 具身智能基座:空间理解能力可迁移到机器人等物理世界应用

08

七、应用场景矩阵

场景 具体应用 能力依赖
🛒 电商内容生产 产品图多视角生成、场景替换、风格迁移 物体旋转、风格迁移
🎨 创意设计 海报设计、长文本排版图像、漫画分镜 文本渲染、编辑能力
🖼️ 智能图像处理 复杂空间场景编辑、物体精确操控 空间智能全能力
🏗️ 3D 模型重建 Novel View Synthesis、多视角一致性 多视角生成
🤖 具身智能 机器人视觉感知、空间理解训练 空间智能全能力
💡 AI 应用开发 基于此模型构建垂直应用 API + 开源代码

09

八、GitHub 仓库关键指标

指标 数值 备注
Stars 233+ 开源仅数天
Forks 0 模型权重在 HuggingFace
Watchers 1
Contributors 9 核心开发团队
Issues 0 刚开源
Pull Requests 0
Releases 0 尚未发布版本
Branches 1 main
Tags 0
License Apache-2.0 可免费商用
Language Python 100%
💬 引用
⚠️ 仓库本身是项目索引页/主页,包含整体项目介绍和指向各子模块的链接。实际的模型权重和推理代码托管在 HuggingFace 上

10

九、快速访问指南

资源 链接
🔧 GitHub 主页 github.com/jd-opensource/JoyAI-Image
🤗 HuggingFace 权重 huggingface.co/jdopensource/JoyAI-Image-Edit
📄 技术论文 PDF JoyAI-Image.pdf
☁️ fal.ai API fal.ai/models/fal-ai/joyai-image-edit
📦 ModelScope modelscope.cn(搜索 JoyAI-Image-Edit)

11

十、总结与评价

10.1 核心价值

💬 引用
JoyAI-Image 不再仅仅追求"画得好看",而是开始追求"看得懂、动得准、想得透"。

它将 AI 图像编辑从平面修图升级为三维空间重塑,是开源社区在多模态统一建模方向上的重要里程碑 [4]

10.2 技术亮点

  1. 架构创新:8B MLLM + 16B MMDiT 的双塔协同,理解和生成深度耦合
  2. 空间智能原生支持:从数据(OpenSpatial/SpatialEdit)到架构到任务的全链路空间建模
  3. 统一建模:一个模型覆盖理解、生成、编辑三大任务
  4. 实用导向:蒸馏版本、多平台分发、API 化服务

10.3 关注点

  1. 项目刚开源(2026年4月初),社区生态尚在建设中(Stars 233+,Forks 0,Issues 0)
  2. 模型参数量较大(~24B),推理资源需求高
  3. 目前仅有编辑子模块开源,文生图等模块尚未放出
  4. 论文详细评测数据需阅读完整 PDF

12

Sources

引用来源

[1] GitHub Repository

[2] 新京报报道

[3] GitHub README

[4] 稀土掘金

[5] 智者邦

[6] 知乎专栏

[7] HuggingFace

[8] fal.ai