原文标题：Introducing GPT-5.4 mini and nano
原文链接：https://openai.com/index/introducing-gpt-5-4-mini-and-nano

发布 GPT-5.4 mini 与 nano

GPT-5.4 mini and nano Hero

今天我们发布 GPT‑5.4 mini 和 nano，这是我们目前能力最强的小型模型。它们把 GPT‑5.4 的许多优势带到更快、更高效、面向高吞吐工作负载的模型上。

GPT‑5.4 mini 在编码、推理、多模态理解和 tool use 上相较 GPT‑5 mini 明显提升，同时运行速度超过 2 倍。它在多项评测上也接近更大体量的 GPT‑5.4，包括 SWE-Bench Pro 与 OSWorld-Verified。

GPT‑5.4 nano 是 GPT‑5.4 系列中最小、最便宜的版本，面向速度与成本最关键的任务。它相较 GPT‑5 nano 也有显著升级。我们推荐将它用于分类、数据提取、排序，以及处理较简单支撑任务的 coding subagents。

这些模型面向的工作负载类型中，延迟会直接影响产品体验：需要即时响应的 coding assistants、快速完成支撑任务的 subagents、需要捕获并解释截图的 computer-using systems，以及可对图像进行实时推理的多模态应用。在这些场景中，最优模型通常不是最大模型，而是能够快速响应、可靠使用 tools，并且在复杂专业任务上仍有良好表现的模型。

评测对比（xhigh）

Benchmark	GPT-5.4	GPT-5.4 mini	GPT-5.4 nano	GPT-5 mini (high¹)
SWE-Bench Pro (Public)	57.7%	54.4%	52.4%	45.7%
Terminal-Bench 2.0	75.1%	60.0%	46.3%	38.2%
Toolathlon	54.6%	42.9%	35.5%	26.9%
GPQA Diamond	93.0%	88.0%	82.8%	81.6%
OSWorld-Verified	75.0%	72.1%	39.0%	42.0%

¹ GPT‑5 mini 可用的最高 reasoning_effort 为 high。

以下是客户在工作流中测试 GPT‑5.4 mini 与 nano 后的反馈：

GPT‑5.4 mini 与 nano 在需要快速迭代的编码工作流中尤其有效。模型可以在低延迟下处理定向修改、代码库导航、前端生成和调试循环，因此非常适合那些需要以更快速度、更低成本完成的编码任务。

在基准测试中，GPT‑5.4 mini 在相近延迟下持续优于 GPT‑5 mini，并且在更快速度下接近 GPT‑5.4 级别的通过率，在编码工作流中呈现了很强的“性能/延迟”平衡。

我们通过观察模型在生产环境中的行为，并在离线环境中进行模拟来估算延迟。该延迟估算考虑了 tool 调用时长（代码执行时间）、采样 token 与输入 token。真实场景中的延迟可能存在显著差异，并会受到模拟未覆盖因素的影响。同样，成本估算基于撰写本文时这些模型的 API 定价，未来可能变化。reasoning effort 从 low 到 xhigh 进行了扫描。

GPT‑5.4 mini 也适合把不同体量模型组合在一起的系统。以 Codex 为例，更大的模型（如 GPT‑5.4）可以负责规划、协调和最终判断，同时把更窄的并行子任务委派给 GPT‑5.4 mini subagents，例如搜索代码库、审阅大文件或处理辅助文档。可在文档中了解 Codex 的 subagents 工作方式：https://developers.openai.com/codex/subagents/。

随着小模型变得更快、更强，这种模式会更有价值。开发者不必用单个模型处理所有工作，而是可以构建这样的系统：大模型负责决策，小模型负责高并发快速执行。对于这类工作方式，GPT‑5.4 mini 是我们迄今最强的 mini 模型。

GPT‑5.4 mini 在多模态任务上也表现强劲，特别是与 computer use 相关的任务。模型可以快速理解密集用户界面的截图，以更快速度完成 computer use 任务。在 OSWorld-Verified 上，GPT‑5.4 mini 接近 GPT‑5.4，同时显著优于 GPT‑5 mini。

可用性与价格

GPT‑5.4 mini 今日已在 API、Codex 与 ChatGPT 中提供。

在 API 中，GPT‑5.4 mini 支持文本与图像输入、tool use、function calling、web search、file search、computer use 与 skills。它拥有 400k context window，价格为每 1M 输入 token 0.75 美元、每 1M 输出 token 4.50 美元。

在 Codex 中，GPT‑5.4 mini 可用于 Codex app、CLI、IDE extension 与 web。它仅消耗 GPT‑5.4 配额的 30%，开发者可以用约三分之一成本更快处理更简单的编码任务。Codex 也可将推理强度更低的工作委派给 GPT‑5.4 mini subagents，在更便宜的模型上运行。

在 ChatGPT 中，GPT‑5.4 mini 通过 “Thinking” 功能向 Free 与 Go 用户提供（在 + 菜单中）。对其他用户，GPT‑5.4 mini 作为 GPT‑5.4 Thinking 的限流回退模型提供。

GPT‑5.4 nano 仅在 API 中提供，价格为每 1M 输入 token 0.20 美元、每 1M 输出 token 1.25 美元。

关于模型安全防护的更多信息，请参考 Deployment Safety Hub 上的 System Card 增补：https://deploymentsafety.openai.com/gpt-5-4-thinking/appendix-gpt-5.4-mini。

分项基准

Coding

Benchmark	GPT-5.4 (xhigh)	GPT-5.4 mini (xhigh)	GPT-5.4 nano (xhigh)	GPT-5 mini (high¹)
SWE-bench Pro (Public)	57.7%	54.4%	52.4%	45.7%
Terminal-Bench 2.0	75.1%	60.0%	46.3%	38.2%

Tool-calling

Benchmark	GPT-5.4 (xhigh)	GPT-5.4 mini (xhigh)	GPT-5.4 nano (xhigh)	GPT-5 mini (high¹)
MCP Atlas	67.2%	57.7%	56.1%	47.6%
Toolathlon	54.6%	42.9%	35.5%	26.9%
τ2-bench (telecom)	98.9%	93.4%	92.5%	74.1%

Intelligence

Benchmark	GPT-5.4 (xhigh)	GPT-5.4 mini (xhigh)	GPT-5.4 nano (xhigh)	GPT-5 mini (high¹)
GPQA Diamond	93.0%	88.0%	82.8%	81.6%
HLE w/ tool	52.1%	41.5%	37.7%	31.6%
HLE w/o tools	39.8%	28.2%	24.3%	18.3%

MM / Vision / CUA

Benchmark	GPT-5.4 (xhigh)	GPT-5.4 mini (xhigh)	GPT-5.4 nano (xhigh)	GPT-5 mini (high¹)
OSWorld-Verified	75.0%	72.1%	39.0%	42.0%
MMMUPro w/ Python	81.5%	78.0%	69.5%	74.1%
MMMUPro	81.2%	76.6%	66.1%	67.5%
OmniDocBench 1.5 (no tools)² — lower is better	0.109	0.1263	0.2419	0.1791

Long context

Benchmark	GPT-5.4 (xhigh)	GPT-5.4 mini (xhigh)	GPT-5.4 nano (xhigh)	GPT-5 mini (high¹)
OpenAI MRCR v2 8-needle 64K–128K	86.0%	47.7%	44.2%	35.1%
OpenAI MRCR v2 8-needle 128K–256K	79.3%	33.6%	33.1%	19.4%
Graphwalks BFS 0K–128K	93.1%	76.3%	73.4%	73.4%
Graphwalks parents 0–128K (accuracy)	89.8%	71.5%	50.8%	64.3%

¹ GPT‑5 mini 可用的最高 reasoning_effort 为 high。
² Overall Edit Distance。OmniDocBench 在 reasoning_effort 设为 none 的条件下运行，以反映低成本、低延迟表现。

引用

OpenAI. Introducing GPT-5.4 mini and nano.
https://openai.com/index/introducing-gpt-5-4-mini-and-nano
OpenAI Developers. Codex subagents.
https://developers.openai.com/codex/subagents/
OpenAI Deployment Safety Hub. GPT-5.4 mini appendix.
https://deploymentsafety.openai.com/gpt-5-4-thinking/appendix-gpt-5.4-mini