DeepSeek V4 全面评测

开源新王者 — 百万上下文、Agent 旗舰、国产芯片适配

📅 2026-04-24 📄 AI 模型评测 👤 Kevin
DeepSeekAI开源模型LLMBenchmark

北京时间 2026 年 4 月 24 日 11:00,DeepSeek 正式发布新一代旗舰模型 DeepSeek V4,同步开源并上线 API 服务。这是继 2025 年初 R1 引发"AI 地震"后,DeepSeek 最大的一次升级。

01

模型架构与版本

V4 不再延续此前"对话模型 + 推理模型"的分离设计,而是统一为两大版本,通过 Thinking Mode 按需切换推理能力。

维度 V4-Pro V4-Flash
定位 旗舰,比肩顶级闭源模型 快速高效,经济型
上下文窗口 100 万 token 100 万 token
最大输出长度 384K token 384K token
思考模式 按需启用 按需启用
开源协议 MIT MIT

两款模型均支持 JSON 输出、Tool Calls、对话前缀续写等 Agent 相关能力。

02

核心技术亮点

全新注意力机制 — DSA

DeepSeek V4 创新性地引入了 DeepSeek Sparse Attention(DSA) 稀疏注意力机制,在 token 维度进行压缩,实现了两个关键突破:

  • 计算和显存需求大幅降低:相比传统注意力方法,长上下文场景下的资源消耗显著减少
  • 100 万 token 成为标配:从 V4 开始,1M 上下文是 DeepSeek 所有官方服务的默认配置

Agent 能力 — 最大卖点

V4-Pro 在 Agentic Coding 评测中达到开源最佳水平。根据官方信息:

  • 内部员工已将其作为 Agentic Coding 模型使用,体验优于 Claude Sonnet 4.5
  • 交付质量接近 Claude Opus 4.6 非思考模式,但仍与 Opus 4.6 思考模式存在差距
  • 已针对 Claude Code、OpenClaw、OpenCode、CodeBuddy 等主流 Agent 产品完成适配和优化

世界知识与推理

  • 世界知识:大幅领先所有开源模型,仅稍逊于 Gemini-Pro-3.1
  • 数学 / STEM / 竞赛代码:超越所有已公开开源模型,比肩世界顶级闭源模型
  • Codeforces:评分飙升至 2767 分,拉开显著差距
03

Benchmark 性能

核心测试成绩

测试项 V4-Pro 对比
SWE-bench Verified 83.7% > Claude Opus 4.5 (80.9%), GPT-5.2 (80%)
Agentic Coding 开源最佳 优于 Claude Sonnet 4.5
世界知识 接近 Gemini-Pro-3.1 远超其他开源模型
数学 / STEM 比肩顶级闭源 超越所有开源模型
Codeforces 2767 显著领先

V4-Pro vs V4-Flash 差异

V4-Flash 在世界知识储备方面稍逊于 Pro 版,但展现出了接近的推理能力。对于日常开发和一般场景,Flash 版本在性能与成本之间取得了很好的平衡。

04

API 定价

DeepSeek V4 沿袭了 DeepSeek 一贯的低价策略,采用按量计费:

版本 输入价格 输出价格
V4-Flash 极低(市场最低梯队) 极低
V4-Pro $0.30 / 百万 token $0.50 / 百万 token

价格对比

模型 输入 / 百万 token 输出 / 百万 token
DeepSeek V4-Pro $0.30 $0.50
GPT-5.4 $2.50 $12.50
Claude Opus 4.6 $5.00 $25.00
Claude Sonnet 4.5 $3.00 $15.00
Gemini 2.5 Pro $1.25 $10.00

V4-Pro 的价格约为 GPT-5.4 的 1/8,为 Claude Opus 的 1/50

05

API 接入

兼容性

DeepSeek V4 API 同时兼容两类主流协议(OpenAI 格式 + DeepSeek 原生格式),开发者可在现有工具链基础上较低成本迁移。

模型 ID

  • deepseek-v4-pro — 旗舰版
  • deepseek-v4-flash — 快速版

旧模型名称(deepseek-chatdeepseek-reasoner)将逐步弃用。

06

国产芯片适配

发布首日即完成了对国产 AI 算力芯片的适配:

  • 华为昇腾:已完成适配,V4 在华为昇腾 910C 上训练和推理
  • 寒武纪:基于 vLLM 推理框架完成 Day 0 适配,适配代码已开源到 GitHub

这意味着 DeepSeek V4 不仅适配英伟达 GPU,更在华为昇腾、寒武纪等国产芯片上完成了工程化验证,"模型—芯片—云"闭环正在逐步跑通。

07

综合评价

优势

  1. 开源之王:MIT 协议 + 比肩顶级闭源的性能,开源阵营无可争议的领导者
  2. 100 万上下文:远超大多数竞品(Gemini 2.5 Pro 为 2M 但闭源),开源模型中最长
  3. Agent 能力突出:Agentic Coding 开源最佳,已适配主流 Agent 框架
  4. 极致性价比:比 GPT-5.4 便宜 8 倍,比 Claude Opus 便宜 50 倍
  5. 国产算力自主:华为昇腾 + 寒武纪适配,摆脱英伟达依赖
  6. Thinking Mode:统一架构,按需切换推理深度,比 V3+R1 分离方案更优雅

不足

  1. 与 Claude Opus 4.6 思考模式仍有差距(官方自述)
  2. 世界知识逊于 Gemini-Pro-3.1
  3. 当前为预览版,可能还在迭代优化中
  4. 基于华为昇腾训练,per-token 质量可能略有折中

适合场景

场景 推荐版本 说明
日常开发助手 V4-Flash 成本极低,推理能力接近 Pro
Agentic Coding V4-Pro 开源最强,适配主流框架
长文档处理 V4-Pro 100 万上下文,适合知识库、代码库分析
企业级部署 任意 MIT 协议可自由商用
预算敏感项目 V4-Flash 市场最低价格梯队
08

总结

DeepSeek V4 是 2026 年开源 AI 领域最重要的里程碑。它在性能上首次让开源模型真正逼近(部分超越)顶级闭源模型,同时在价格、开源、国产芯片适配上保持了 DeepSeek 一贯的激进策略。

对于开发者和企业来说,V4-Flash 的性价比几乎无可匹敌;对于需要最强能力的场景,V4-Pro 在开源模型中也没有对手。唯一需要关注的是"预览版"标签——正式版发布后的稳定性值得期待。

💬 引用
评测时间:2026 年 4 月 24 日

模型版本:DeepSeek V4 Preview

来源:IT之家华尔街见闻稀土掘金新浪财经