GPT-5.5 发布,详细解读

OpenAI Release

凌晨,OpenAI 发布 GPT-5.5,是 GPT-5 系列迄今最大更新

GPT-5.5 发布,详细解读

下面这个,是介绍视频

GPT-5.5 发布,详细解读

https://openai.com/index/introducing-gpt-5-5/

本次核心变化:用更少的 token,干更难的活

在 Artificial Analysis 的 Coding Agent Index 上,GPT-5.5 达到了最高智能水平,成本是同级别竞品的一半

GPT-5.5 发布,详细解读

GPT-5.5 这个模型,目前已向 ChatGPT 付费用户开放

对于更高级别的 GPT-5.5 Pro,则向 Pro、Business、Enterprise 用户开放

API 即将上线,价格大幅上涨,为 $5/$30 (每百万Token),是 5.4 价格的 2 倍

GPT-5.5 发布,详细解读

能力总览

OpenAI 拿出了一张 9 项核心指标的对比表,横向对比 GPT-5.5、GPT-5.4、GPT-5.5 Pro、GPT-5.4 Pro、Claude Opus 4.7 和 Gemini 3.1 Pro

GPT-5.5 发布,详细解读

我把表格重绘了下

在 Artificial Analysis Intelligence Index(第三方,10 项 eval 加权平均)上,GPT-5.5 在同等输出 token 量下智能得分最高,token 总消耗明显低于其他模型(注意:考虑到 5.5 是 5.4 价格的2倍,所以总价还是更贵了)

GPT-5.5 发布,详细解读

Terminal-Bench 2.0复杂命令行工作流:82.7%,vs GPT-5.4 的 75.1%,vs Claude Opus 4.7 的 69.4%

SWE-Bench Pro真实 GitHub issue 解决:58.6%,vs GPT-5.4 的 57.7%。Claude Opus 4.7 报了 64.3%,但 Anthropic 承认部分问题存在记忆化

Expert-SWE内部长周期编码任务,中位人类完成时间 20 小时:73.1%,vs GPT-5.4 的 68.5%

GPT-5.5 发布,详细解读

在 Codex 里,GPT-5.5 可以接手从实现、重构到调试、测试的完整工程工作。上下文窗口 400K

知识工作

coding 之外,GPT-5.5 在日常电脑操作和知识工作上的提升同样明显

GDPval44 个职业知识工作测试,胜出或平手率 84.9%,vs GPT-5.4 的 83.0%,vs Claude Opus 4.7 的 80.3%

OSWorld-Verified模型独立操作真实电脑环境:78.7%,vs GPT-5.4 的 75.0%

Tau2-bench Telecom复杂客服工作流,无 prompt 调优:98.0%,vs GPT-5.4 的 92.8%

GPT-5.5 Pro 也有提升。早期测试者觉得 GPT-5.5 Pro 在业务、法律、教育、数据科学方向上比 GPT-5.4 Pro 更全面、更准确

GPT-5.5 发布,详细解读

财务建模 demo,手动替换:https://player.vimeo.com/video/1185616826

OpenAI 内部用例

OpenAI 公司超过 85% 的员工每周都在用 Codex,覆盖工程、财务、市场、公关、数据科学、产品管理

公关团队分析了 6 个月的演讲邀请数据,建了打分和风险框架,低风险请求自动处理,高风险请求交人审核

财务团队审了 24,771 份 K-1 税表,共 71,637 页,比去年提前两周完成

GTM 团队自动生成周报,每周省 5-10 小时

科学研究

GeneBench 是 OpenAI 新推出的 eval,测试多阶段遗传学和定量生物学数据分析。这些任务通常对应科研专家几天到几周的工作量。GPT-5.5 得分 25.0%,GPT-5.4 是 19.0%,GPT-5.5 Pro 达到 33.2%

BixBench(真实生物信息学和数据分析 benchmark):GPT-5.5 得分 80.5%,GPT-5.4 是 74.0%

GPT-5.5 发布,详细解读

Academic 评测数据

Ramsey 数新证明

GPT-5.5 的内部版本配合自定义工具链,发现了关于 Ramsey 数的一个新证明。Ramsey 数是组合数学的核心对象,研究结果稀少且技术难度高。这个证明后来在 Lean 中完成了形式化验证

GPT-5.5 发布,详细解读

推理效率

GPT-5.5 更大更强,但实际延迟和 GPT-5.4 一样

此前,OpenAI 用固定数量的静态分区来平衡 GPU 上的计算负载

而在新版本中,Codex 分析了数周的生产流量数据,写了自定义的启发式分区算法。这一项改进让 token 生成速度提升了超过 20%

GPT-5.5 发布,详细解读

模型帮忙优化了自己运行的基础设施

网络安全

GPT-5.5 的网络安全能力被 OpenAI Preparedness Framework 评为 High(生物/化学能力同为 High)。没有达到 Critical 级别

CyberGym81.8%,vs GPT-5.4 的 79.0%,vs Claude Opus 4.7 的 73.1%

CTF 挑战任务内部扩展版:88.1%,vs GPT-5.4 的 83.7%

与此同时,GPT-5.5 也发布同时推出了一个新项目:生物安全漏洞赏金

GPT-5.5 发布,详细解读

规则是这样,OpenAI 准备了 5 个生物安全问题,参与者需要找到一条「通用越狱 prompt」,在 Codex Desktop 的干净对话里,一次性通过全部 5 个问题,且不触发审核,就算越狱成功

参与地址在这:https://openai.com/index/gpt-5-5-bio-bug-bounty/

第一个成功的通用越狱,奖金 $25,000。部分突破可能获得较小奖励

申请窗口2026 年 4 月 23 日开放,6 月 22 日截止,滚动审核

测试窗口2026 年 4 月 28 日至 7 月 27 日

准入条件需要现有 ChatGPT 账号,签署 NDA

保密要求所有 prompt、输出和发现均受保密协议覆盖

面向有 AI 红队、安全或生物安全经验的研究者

可用性与定价

ChatGPT

GPT-5.5 Thinking 面向 Plus、Pro、Business、Enterprise 用户。GPT-5.5 Pro 面向 Pro、Business、Enterprise 用户

Codex

GPT-5.5 面向 Plus、Pro、Business、Enterprise、Edu、Go 用户,400K 上下文窗口。Fast 模式 token 生成速度提升 1.5 倍,成本 2.5 倍

API(即将上线)

gpt-5.5$5/1M input tokens,$30/1M output tokens,1M 上下文窗口

gpt-5.5-pro$30/1M input tokens,$180/1M output tokens

Batch / Flex标准价的一半

Priority标准价的 2.5 倍

GPT-5.5 单价比 GPT-5.4 高,但 token 效率也更高

OpenAI 表示在 Codex 里,GPT-5.5 对大多数用户来说,实际消耗的 token 比 GPT-5.4 更少

完整 Benchmark 数据

以下是 OpenAI 公布的全部评测数据,按类别整理。所有 GPT 评测在 reasoning effort 设为 xhigh 的研究环境中进行

GPT-5.5 发布,详细解读

Coding 评测表

GPT-5.5 发布,详细解读

Professional 评测表

GPT-5.5 发布,详细解读

Computer Use and Vision 评测表

GPT-5.5 发布,详细解读

Tool Use 评测表

GPT-5.5 发布,详细解读

Academic 评测表

GPT-5.5 发布,详细解读

Cybersecurity 评测表

GPT-5.5 发布,详细解读

Long Context 评测表

GPT-5.5 发布,详细解读

Abstract Reasoning 评测表

GPT-5.5 发布,详细解读

Abstract Reasoning 评测表

短板

SWE-Bench Pro 上 Claude Opus 4.7 报了 64.3%(GPT-5.5 是 58.6%),但 Anthropic 承认部分问题存在记忆化

MCP Atlas 上 Claude Opus 4.7(79.1%)和 Gemini 3.1 Pro(78.2%)均高于 GPT-5.5(75.3%)

Humanity’s Last Exam(带工具)上 GPT-5.4 Pro 的 58.7% 高于 GPT-5.5 Pro 的 57.2%

长上下文 256K 以上,Claude Opus 4.7 在部分指标上仍有优势

参考材料

→ 官方博客:openai.com/index/introducing-gpt-5-5/

→ System Card:deploymentsafety.openai.com/gpt-5-5

→ Bio Bug Bounty 申请:https://openai.com/index/gpt-5-5-bio-bug-bounty/

→ BixBench 论文:arxiv.org/abs/2503.00096

→ Artificial Analysis 方法论:artificialanalysis.ai/methodology/intelligence-benchmarking

→ API 定价:openai.com/api/pricing/

本文来自转载赛博禅心 ,不代表发现AI立场,如若转载,请联系原作者;如有侵权,请联系编辑删除。

(0)
资讯组小编的头像资讯组小编
实测Qwen3.6-27B:4分钟做了个跑酷游戏,验证码识别正确率超90%
上一篇 6小时前
DeepSeek V4 编程测评
下一篇 5小时前

扫码关注我们,了解最新AI资讯~

相关推荐

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注