Document

📅 2026-04-10 📄 技术文档

📑 目录

📋 执行摘要
一、项目概览
二、技术架构
三、核心能力详解
四、环境配置与使用指南
五、京东 AI 生态定位
六、竞品对比分析
七、应用场景矩阵
八、GitHub 仓库关键指标
九、快速访问指南
十、总结与评价
Sources

💡 信息

研究日期：2026年4月9日
研究对象：jd-opensource/JoyAI-Image
报告版本：v1.0
研究方法：多源信息采集 + 交叉验证

📋 执行摘要

JoyAI-Image 是京东探索研究院自研的统一多模态基础模型，于 2026年4月初 正式开源，实现了图像理解、文生图、指令引导图像编辑三大能力的统一建模 [1]。其子模块 JoyAI-Image-Edit 是业内首个将"空间智能"深度融入底层架构的开源图像编辑模型，支持物体空间移动、旋转、相机视角控制等三维空间操作 [2]。

核心数据：

指标	数值
GitHub Stars	233+（开源仅数天）
Contributors	9 人
开源协议	Apache-2.0（可免费商用）
编程语言	Python 100%
在线体验	fal.ai 已集成 API

一、项目概览

1.1 定位与愿景

JoyAI-Image 的全称是 "JoyAI-Image: Awakening Spatial Intelligence in Unified Multimodal Understanding and Generation"（唤醒空间智能的统一多模态理解与生成）[3]。

它针对当前视觉 AI 领域的核心痛点——图像理解、文生图、图生图（指令修图）由完全不同的模型架构割裂处理——提出了统一解决方案 [4]。

1.2 发布背景

2026年4月8日，京东探索研究院正式宣布开源 JoyAI-Image-Edit 图像模型。京东高级副总裁何晓冬在接受媒体采访时表示：通用人工智能有两个方向要走——一个是多模态，另一个是具身智能，让通用人工智能走向物理世界 [2]。

1.3 技术论文

项目提供了完整的技术报告 PDF：
📄 论文地址：https://joyai-image.s3.cn-north-1.jdcloud-oss.com/JoyAI-Image.pdf

二、技术架构

2.1 整体架构：8B MLLM + 16B MMDiT

JoyAI-Image 采用双塔协同架构，总参数量约 24B：

┌──────────────────────────────────────────────────────────────┐
│                    JoyAI-Image 架构                          │
│                                                              │
│   ┌─────────────────────┐      ┌──────────────────────────┐  │
│   │    8B MLLM          │ ───→ │    16B MMDiT             │  │
│   │  (多模态大语言模型)   │      │  (多模态扩散Transformer) │  │
│   │                     │      │                          │  │
│   │  · 图像空间理解      │      │  · 像素级精准生成         │  │
│   │  · 指令解析与分解    │      │  · 遮挡/光影自然处理      │  │
│   │  · 3D空间关系推理    │      │  · 空间一致性保持         │  │
│   │  · 场景语义解析      │      │  · 多视角一致性生成       │  │
│   └─────────────────────┘      └──────────────────────────┘  │
│                                                              │
│              "理解 → 生成 → 编辑" 协同闭环                    │
└──────────────────────────────────────────────────────────────┘

8B MLLM（多模态大语言模型）：负责图像的空间理解、场景解析、关系定位和指令分解。它不仅"看到"图像，更理解图像中物体的位置、光影关系、遮挡关系和空间结构 [4]。
16B MMDiT（多模态扩散 Transformer）：在扩散模型架构下执行像素级精准操作。相比传统 U-Net 架构，MMDiT 在处理长文本提示词和复杂几何变换时更具优势 [4]。

2.2 训练数据体系

项目引入了两个核心数据集：

数据集	用途	说明
OpenSpatial	空间理解数据	可扩展的空间理解数据管道，覆盖空间位置关系、多视角一致性、相机感知等维度
SpatialEdit	编辑数据	专项编辑训练数据，配合多阶段优化策略 <!--CITE#5

训练流程采用多阶段优化策略，逐步提升模型在空间理解、文本渲染、通用编辑等方面的能力 [6]。

2.3 蒸馏版本

项目提供了蒸馏版本（Distilled），在保证效果的同时大幅提升了推理速度，兼顾了研究探索与生产落地的需求 [4]。

三、核心能力详解

3.1 🌍 空间智能（Spatial Intelligence）— 最大亮点

这是 JoyAI-Image-Edit 最具辨识度的能力，也是其区别于所有现有开源图像编辑模型的核心特征。

传统模型的痛点

传统 AI 图像编辑模型存在根本性问题——在 2D 平面上操作，无法真正理解三维空间：

❌ 传统模型的问题：
  · 移动物体 → 阴影留在原位，遮挡关系错乱
  · 旋转物体 → 视角变了但光照方向没变
  · 放大区域 → 物体比例失调
  · 替换物体 → 前后关系混乱

JoyAI-Image-Edit 的解决方案

通过让 MLLM 先对图像进行 3D 空间结构分析（物体位置、相机参数、光影方向），再引导 MMDiT 进行符合物理规律的图像生成，从根本上解决空间不一致问题 [2]。

三大空间编辑能力

1️⃣ 物体移动（Object Move）

将指定物体平移至画面中的特定区域，智能处理移动后的阴影和遮挡关系。

# CLI 调用示例
python inference.py \
  --ckpt-root /path/to/ckpts_infer \
  --image "scene.jpg" \
  --prompt "Move the vase on the table to the windowsill"

2️⃣ 物体旋转（Object Rotation）

支持将物体旋转至前视、后视、左前视、右前视等八个标准视角。对于电商产品图生成极为有用 [7]。

# CLI 调用示例
python inference.py \
  --ckpt-root /path/to/ckpts_infer \
  --image "product.jpg" \
  --prompt "Rotate the product to back view"

3️⃣ 相机控制（Camera Control）

在不改变场景内容的前提下，通过自然语言指定相机的偏航角（Yaw）、俯仰角（Pitch）及缩放程度，实现"推拉摇移"的电影级运镜效果。还支持空间漫游——生成在空间中逻辑连贯的多视角图像序列，类似于在三维场景中"走动" [2]。

# CLI 调用示例
python inference.py \
  --ckpt-root /path/to/ckpts_infer \
  --image "room.jpg" \
  --prompt "Tilt the camera up 15 degrees and zoom in"

3.2 📝 长文本渲染 — 解决 AI 绘图"写字"难题

针对 AI 绘图长期以来的顽疾——"文字崩坏"，JoyAI-Image 进行了专项优化：

✅ 漫画分镜中的密集对白
✅ 多行排版的复杂排版文字
✅ 手写体保持字符保真度
✅ 海报/标牌的精确布局

3.3 🔄 多视角生成与空间推理

通过生成同一场景的不同视角（Novel View Synthesis），不仅能产出更多样的素材，还能反过来增强模型的空间推理能力。当模型难以判断两个物体的前后关系时，生成一个新的侧视角就能让答案一目了然 [1]。

3.4 🛠️ 15 类通用编辑能力

JoyAI-Image-Edit 全面兼容 15 类通用编辑能力，深度覆盖内容创作的高频需求 [2]：

类别	能力	说明
🎯 物体替换	用另一物体替换指定目标	保持场景一致性
🗑️ 物体删除	智能填充删除区域	背景自然补全
➕ 物体添加	在指定位置添加新物体	光影/遮挡自然
🎨 风格迁移	切换画面整体艺术风格	内容保持，风格变换
✏️ 细节精修	局部区域的高精度修改	脉络级精准控制
📝 文本渲染	在图像中精确渲染文字	长文本排版支持
🔄 多视角生成	同一场景的新视角合成	空间一致性保持
...	...	共 15+ 类能力

3.5 🤖 具身智能视觉感知

这是项目最前沿的应用方向。在京东公布的具身智能实测中：

✅ 提示

用户仅需输入自然语言提示词（如"机器人左手举起来"），并通过画框框选目标区域，即可对指定物体的动作、姿态、旋转角度进行精细化操控。在机器人做家务的实拍场景中，模型在完整保留背景环境、物体空间关系与物理合理性的前提下，生成了机器人抬手的全新姿态 [2]。

四、环境配置与使用指南

4.1 环境要求

组件	要求
Python	≥ 3.10
CUDA	必需（GPU 推理）
flash-attn	≥ 2.8.0（推荐，用于加速）

4.2 安装步骤

# 创建虚拟环境
conda create -n joyai python=3.10 -y
conda activate joyai

# 安装依赖
pip install -e .

4.3 推理命令

图像理解（多图对比分析）：

python inference_und.py \
  --ckpt-root /path/to/ckpts_infer \
  --image "test_images/test_1.jpg,test_images/test3.png" \
  --prompt "Compare these two images."

图像编辑（指令引导）：

python inference.py \
  --ckpt-root /path/to/ckpts_infer \
  --image "input.jpg" \
  --prompt "Turn the plate blue"

4.4 在线体验

对于不想本地部署的用户，fal.ai 已率先集成了 JoyAI-Image-Edit API [8]：

// fal.ai API 调用示例
import { fal } from "@fal-ai/client";

const result = await fal.subscribe("fal-ai/joyai-image-edit", {
  input: {
    prompt: "Add a red hat to the dog",
    image_url: "https://example.com/dog.png"
  },
  logs: true,
});

五、京东 AI 生态定位

5.1 JoyAI 大模型家族

JoyAI-Image-Edit 是京东 JoyAI 大模型体系的重要组成部分。京东围绕 JoyAI 构建了完整的 AI 技术栈：

京东 JoyAI 生态
    │
    ├── JoyAI-Image（统一多模态图像基础模型）
    │   ├── JoyAI-Image-Edit（图像编辑，本次开源）
    │   └── [更多子模块待开源]
    │
    ├── JoyInside（"附身智能"解决方案）
    │   └── 面向智能家电、机器人等终端硬件
    │       植入高情商交互系统
    │
    └── JoyAI 大模型底层能力
        └── 语音、多模态感知等核心能力

5.2 具身智能战略布局

2025年，京东在具身智能领域完成关键布局 [2]：

JoyInside 平台：面向智能家电、机器人等终端硬件植入高情商交互系统，将 AI 的认知与情感能力深度嵌入硬件终端
产业落地：通过开放接口、合作开发等模式，与多家家电及机器人企业达成合作
空间智能基座：JoyAI-Image-Edit 的空间理解能力为具身智能提供关键的底层能力——机器人"理解世界"的核心基础

5.3 商业化路径

Apache-2.0 协议：可自由使用、修改和分发，甚至用于商业闭源产品，仅需保留版权声明
多平台分发：HuggingFace + ModelScope + GitHub 三平台覆盖
API 化服务：已通过 fal.ai 提供云 API，降低开发者接入门槛
垂直场景深耕：电商内容生产、3D 模型重建、具身智能视觉感知

六、竞品对比分析

6.1 与主流图像编辑模型对比

维度	JoyAI-Image-Edit	InstructPix2Pix	PowerPaint	SD Inpainting
空间理解	✅ 3D 空间分析	❌ 2D 平面操作	❌ 2D 平面操作	❌ 2D 平面操作
物体移动	✅ 阴影/遮挡自适应	⚠️ 基础支持	⚠️ 基础支持	❌ 不支持
物体旋转	✅ 8方向精准旋转	❌ 不支持	❌ 不支持	❌ 不支持
相机控制	✅ Yaw/Pitch/Zoom	❌ 不支持	❌ 不支持	❌ 不支持
长文本渲染	✅ 专项优化	❌ 一般	❌ 一般	❌ 一般
统一建模	✅ 理解+生成+编辑	❌ 仅编辑	❌ 仅编辑	❌ 仅修复
开源协议	Apache-2.0	MIT	Apache-2.0	Various
参数量	~24B (8B+16B)	~1.5B	~1.5B	~1.5B-5B

6.2 核心差异化

JoyAI-Image-Edit 的核心差异化在于：

空间智能深度融入：不是后处理的"补丁"，而是架构层面的原生支持
理解-生成闭环：MLLM 理解指导 MMDiT 生成，生成结果反哺理解
统一建模：一个模型同时支持理解、生成、编辑三大任务
具身智能基座：空间理解能力可迁移到机器人等物理世界应用

七、应用场景矩阵

场景	具体应用	能力依赖
🛒 电商内容生产	产品图多视角生成、场景替换、风格迁移	物体旋转、风格迁移
🎨 创意设计	海报设计、长文本排版图像、漫画分镜	文本渲染、编辑能力
🖼️ 智能图像处理	复杂空间场景编辑、物体精确操控	空间智能全能力
🏗️ 3D 模型重建	Novel View Synthesis、多视角一致性	多视角生成
🤖 具身智能	机器人视觉感知、空间理解训练	空间智能全能力
💡 AI 应用开发	基于此模型构建垂直应用	API + 开源代码

八、GitHub 仓库关键指标

指标	数值	备注
Stars	233+	开源仅数天
Forks	0	模型权重在 HuggingFace
Watchers	1	—
Contributors	9	核心开发团队
Issues	0	刚开源
Pull Requests	0	—
Releases	0	尚未发布版本
Branches	1	main
Tags	0	—
License	Apache-2.0	可免费商用
Language	Python 100%	—

💬 引用

⚠️ 仓库本身是项目索引页/主页，包含整体项目介绍和指向各子模块的链接。实际的模型权重和推理代码托管在 HuggingFace 上。

九、快速访问指南

资源	链接
🔧 GitHub 主页	github.com/jd-opensource/JoyAI-Image
🤗 HuggingFace 权重	huggingface.co/jdopensource/JoyAI-Image-Edit
📄 技术论文 PDF	JoyAI-Image.pdf
☁️ fal.ai API	fal.ai/models/fal-ai/joyai-image-edit
📦 ModelScope	modelscope.cn（搜索 JoyAI-Image-Edit）

十、总结与评价

10.1 核心价值

💬 引用

JoyAI-Image 不再仅仅追求"画得好看"，而是开始追求"看得懂、动得准、想得透"。

它将 AI 图像编辑从平面修图升级为三维空间重塑，是开源社区在多模态统一建模方向上的重要里程碑 [4]。

10.2 技术亮点

架构创新：8B MLLM + 16B MMDiT 的双塔协同，理解和生成深度耦合
空间智能原生支持：从数据（OpenSpatial/SpatialEdit）到架构到任务的全链路空间建模
统一建模：一个模型覆盖理解、生成、编辑三大任务
实用导向：蒸馏版本、多平台分发、API 化服务

10.3 关注点

项目刚开源（2026年4月初），社区生态尚在建设中（Stars 233+，Forks 0，Issues 0）
模型参数量较大（~24B），推理资源需求高
目前仅有编辑子模块开源，文生图等模块尚未放出
论文详细评测数据需阅读完整 PDF

Sources

⊕

引用来源

[1] GitHub Repository

[2] 新京报报道

[3] GitHub README

[4] 稀土掘金

[5] 智者邦

[6] 知乎专栏

[7] HuggingFace

[8] fal.ai