跳到正文
This is Oscar
返回

发布 GPT-5.4 mini 与 nano

原文标题:Introducing GPT-5.4 mini and nano
原文链接:https://openai.com/index/introducing-gpt-5-4-mini-and-nano

发布 GPT-5.4 mini 与 nano

GPT-5.4 mini and nano Hero

今天我们发布 GPT‑5.4 mini 和 nano,这是我们目前能力最强的小型模型。它们把 GPT‑5.4 的许多优势带到更快、更高效、面向高吞吐工作负载的模型上。

GPT‑5.4 mini 在编码、推理、多模态理解和 tool use 上相较 GPT‑5 mini 明显提升,同时运行速度超过 2 倍。它在多项评测上也接近更大体量的 GPT‑5.4,包括 SWE-Bench Pro 与 OSWorld-Verified。

GPT‑5.4 nano 是 GPT‑5.4 系列中最小、最便宜的版本,面向速度与成本最关键的任务。它相较 GPT‑5 nano 也有显著升级。我们推荐将它用于分类、数据提取、排序,以及处理较简单支撑任务的 coding subagents。

这些模型面向的工作负载类型中,延迟会直接影响产品体验:需要即时响应的 coding assistants、快速完成支撑任务的 subagents、需要捕获并解释截图的 computer-using systems,以及可对图像进行实时推理的多模态应用。在这些场景中,最优模型通常不是最大模型,而是能够快速响应、可靠使用 tools,并且在复杂专业任务上仍有良好表现的模型。

评测对比(xhigh)

BenchmarkGPT-5.4GPT-5.4 miniGPT-5.4 nanoGPT-5 mini (high¹)
SWE-Bench Pro (Public)57.7%54.4%52.4%45.7%
Terminal-Bench 2.075.1%60.0%46.3%38.2%
Toolathlon54.6%42.9%35.5%26.9%
GPQA Diamond93.0%88.0%82.8%81.6%
OSWorld-Verified75.0%72.1%39.0%42.0%

¹ GPT‑5 mini 可用的最高 reasoning_effort 为 high

以下是客户在工作流中测试 GPT‑5.4 mini 与 nano 后的反馈:

GPT‑5.4 mini 与 nano 在需要快速迭代的编码工作流中尤其有效。模型可以在低延迟下处理定向修改、代码库导航、前端生成和调试循环,因此非常适合那些需要以更快速度、更低成本完成的编码任务。

在基准测试中,GPT‑5.4 mini 在相近延迟下持续优于 GPT‑5 mini,并且在更快速度下接近 GPT‑5.4 级别的通过率,在编码工作流中呈现了很强的“性能/延迟”平衡。

我们通过观察模型在生产环境中的行为,并在离线环境中进行模拟来估算延迟。该延迟估算考虑了 tool 调用时长(代码执行时间)、采样 token 与输入 token。真实场景中的延迟可能存在显著差异,并会受到模拟未覆盖因素的影响。同样,成本估算基于撰写本文时这些模型的 API 定价,未来可能变化。reasoning effort 从 low 到 xhigh 进行了扫描。

GPT‑5.4 mini 也适合把不同体量模型组合在一起的系统。以 Codex 为例,更大的模型(如 GPT‑5.4)可以负责规划、协调和最终判断,同时把更窄的并行子任务委派给 GPT‑5.4 mini subagents,例如搜索代码库、审阅大文件或处理辅助文档。可在文档中了解 Codex 的 subagents 工作方式:https://developers.openai.com/codex/subagents/

随着小模型变得更快、更强,这种模式会更有价值。开发者不必用单个模型处理所有工作,而是可以构建这样的系统:大模型负责决策,小模型负责高并发快速执行。对于这类工作方式,GPT‑5.4 mini 是我们迄今最强的 mini 模型。

GPT‑5.4 mini 在多模态任务上也表现强劲,特别是与 computer use 相关的任务。模型可以快速理解密集用户界面的截图,以更快速度完成 computer use 任务。在 OSWorld-Verified 上,GPT‑5.4 mini 接近 GPT‑5.4,同时显著优于 GPT‑5 mini。

可用性与价格

GPT‑5.4 mini 今日已在 API、Codex 与 ChatGPT 中提供。

在 API 中,GPT‑5.4 mini 支持文本与图像输入、tool use、function calling、web search、file search、computer use 与 skills。它拥有 400k context window,价格为每 1M 输入 token 0.75 美元、每 1M 输出 token 4.50 美元。

在 Codex 中,GPT‑5.4 mini 可用于 Codex app、CLI、IDE extension 与 web。它仅消耗 GPT‑5.4 配额的 30%,开发者可以用约三分之一成本更快处理更简单的编码任务。Codex 也可将推理强度更低的工作委派给 GPT‑5.4 mini subagents,在更便宜的模型上运行。

在 ChatGPT 中,GPT‑5.4 mini 通过 “Thinking” 功能向 Free 与 Go 用户提供(在 + 菜单中)。对其他用户,GPT‑5.4 mini 作为 GPT‑5.4 Thinking 的限流回退模型提供。

GPT‑5.4 nano 仅在 API 中提供,价格为每 1M 输入 token 0.20 美元、每 1M 输出 token 1.25 美元。

关于模型安全防护的更多信息,请参考 Deployment Safety Hub 上的 System Card 增补:https://deploymentsafety.openai.com/gpt-5-4-thinking/appendix-gpt-5.4-mini

分项基准

Coding

BenchmarkGPT-5.4 (xhigh)GPT-5.4 mini (xhigh)GPT-5.4 nano (xhigh)GPT-5 mini (high¹)
SWE-bench Pro (Public)57.7%54.4%52.4%45.7%
Terminal-Bench 2.075.1%60.0%46.3%38.2%

Tool-calling

BenchmarkGPT-5.4 (xhigh)GPT-5.4 mini (xhigh)GPT-5.4 nano (xhigh)GPT-5 mini (high¹)
MCP Atlas67.2%57.7%56.1%47.6%
Toolathlon54.6%42.9%35.5%26.9%
τ2-bench (telecom)98.9%93.4%92.5%74.1%

Intelligence

BenchmarkGPT-5.4 (xhigh)GPT-5.4 mini (xhigh)GPT-5.4 nano (xhigh)GPT-5 mini (high¹)
GPQA Diamond93.0%88.0%82.8%81.6%
HLE w/ tool52.1%41.5%37.7%31.6%
HLE w/o tools39.8%28.2%24.3%18.3%

MM / Vision / CUA

BenchmarkGPT-5.4 (xhigh)GPT-5.4 mini (xhigh)GPT-5.4 nano (xhigh)GPT-5 mini (high¹)
OSWorld-Verified75.0%72.1%39.0%42.0%
MMMUPro w/ Python81.5%78.0%69.5%74.1%
MMMUPro81.2%76.6%66.1%67.5%
OmniDocBench 1.5 (no tools)² — lower is better0.1090.12630.24190.1791

Long context

BenchmarkGPT-5.4 (xhigh)GPT-5.4 mini (xhigh)GPT-5.4 nano (xhigh)GPT-5 mini (high¹)
OpenAI MRCR v2 8-needle 64K–128K86.0%47.7%44.2%35.1%
OpenAI MRCR v2 8-needle 128K–256K79.3%33.6%33.1%19.4%
Graphwalks BFS 0K–128K93.1%76.3%73.4%73.4%
Graphwalks parents 0–128K (accuracy)89.8%71.5%50.8%64.3%

¹ GPT‑5 mini 可用的最高 reasoning_effort 为 high
² Overall Edit Distance。OmniDocBench 在 reasoning_effort 设为 none 的条件下运行,以反映低成本、低延迟表现。

引用


分享到:

上一篇
LangSmith Sandboxes:为 Agents 提供安全代码执行
下一篇
Claude 如何记住你的项目