刚刚，OpenAI最强GPT-5.6发布！「太阳系」爆发冲破神话

资讯组小编 • 文章来源: 新智元 • 1小时前 • 新闻

OpenAI首次启用太阳、大地、月亮命名，全新GPT-5.6正式登场。旗舰Sol编程屠榜，只当了17天第一的Claude Mythos 5，被一夜拉下王座。

OpenAI今夜「三连发」！

就在刚刚，GPT-5.6Sol、Terra、Luna同时登场。

太阳、大地、月亮。GPT系列第一次用天文学给模型命名。

超大杯旗舰Sol，直接刷爆了AI编程能力的天花板；
大杯Terra，上一代旗舰的水平，但价格只要一半；
中杯Luna，每百万token输入只要一刀，量大管饱。

OpenAI用来掀翻Mythos的旗舰，第一次交到了——极少数人手上。

是的，GPT-5.6暂时只向约20家受信合作伙伴开放API和Codex访问，普通用户短期内无缘。

官方的说法是，模型将会在「未来几周」逐步放开。

OpenAI太阳系，登场

此前，Anthropic用Mythos（神话）和Fable（寓言）命名，指向的是AI与人类叙事传统的关系。而OpenAI则选了天体。

Sol是拉丁语中的「太阳」，也是罗马神话里驾驭金色战车、每日横跨天穹的太阳神。

它对标最复杂的推理和研究场景，适合长链条、多步骤的硬任务。

输入5美元/百万token，输出30美元/百万token。

Terra是拉丁语的「大地」，也常被作为Earth的拉丁名和文学化称呼。

它瞄准日常开发和知识工作，用更低的成本拿到上一代旗舰级的能力。

输入2.5美元/百万token，输出15美元/百万token。

Luna是拉丁语的「月亮」，夜空中最近、最亮、最容易触及的天体。

它为高吞吐场景而生，分类、摘要、批量处理，追求的是量大管饱。

输入1美元/百万token，输出6美元/百万token。

根据OpenAI官方的解释：「命名的原则是数字标识代际，Sol/Terra/Luna标识持久的能力层级，可以按各自节奏独立迭代。」

也就是说，以后升级到了GPT-6，旗舰可能依然叫Sol，Luna还是对应最小的那个。

你不用猜，就知道自己在用的是什么水平的模型。

Sol交卷，Mythos让座

OpenAI这次重点秀的能力有三个：编程、生物、网络安全。

编程方面，他们刷的是目前最能衡量AI编程能力的基准之一——Terminal-Bench 2.1。

它考的是代码规划、工具调用、多轮迭代纠错这样完整的命令行工作流，是一个模型能不能像真正的工程师那样端到端地完成复杂项目。

结果显示，Sol在ultra模式下跑出了91.9%，拿下了所有已公开模型的最高分。

作为对比，Anthropic两周前刚发布的Claude Mythos 5在同一基准上是88.0%，Fable 5是84.3%。

Sol关掉ultra只用max模式也有88.8%，单凭这一个数字就已经超过了Anthropic两个最新旗舰。

网络安全，则是OpenAI在博客里着墨最多的方向。

GPT-5.6 Sol在ExploitBench上的表现，几乎打平了Anthropic之前强到不敢发的Mythos Preview，但只消耗了约三分之一的输出token。

在UC Berkeley与OpenAI等实验室联合开发的ExploitGym基准上，Sol、Terra、Luna三个模型都展示了随推理能力增加而持续提升的安全能力曲线。

而在CTF（夺旗赛）评估中，Sol的命中率更是高达96.7%，几乎触顶。

生物学方向，OpenAI跑的是一个专门评估长链条基因组学和定量生物学分析能力的基准——GeneBench v1。

在这里，Sol只需很少的token，就能完爆上一代的GPT-5.5。

医疗领域的涨幅同样很猛。

在HealthBench Professional上，Sol拿到60.5分，比GPT-5.5高出8.7分。

值得一提的是，Terra和Luna是OpenAI历史上首批在网络安全和生物两个领域，同时拿到High能力评级的非旗舰模型。

以前这个级别只属于最强的那一个，这次三个都是。

ultra：一个模型拆出一组智能体

除了模型本身之外，OpenAI这次还重磅推出了两种新的推理模式。

第一种叫max。

也就是大家最为熟知的那种形式——给Sol更多时间思考，让推理链更深更长。

第二种叫ultra。

在这个模式下，Sol不再是单一模型在独立思考。它会自动拆分复杂任务，启动一组子智能体（subagents）并行处理，再汇总结果。

如果max是「让一个人想更久」，ultra就是「让这个人召集一支团队」。

这跟Anthropic在Opus 4.6上推的Agent Teams思路不一样。

Agent Teams是多个Claude实例并行干活，协作方式由人来设计。ultra是模型自己完成了任务拆解和协调，开发者只需要提需求，Sol自己决定怎么分工。

Terminal-Bench上的SOTA成绩，正是ultra模式下跑出来的。

太想干活的副作用

不过，GPT-5.6强是强了，但脾气也更大了。

在配套的系统卡中，OpenAI直接点名了三个翻车现场，其中两个最离谱：

1. 让它删三台虚拟机，找不到就自作主张挑了另外三台下手；

2. 远程跑任务读不到文件，直接翻出本地藏着的access token复制到别的机器上硬跑，全程没问过用户。

外部机构METR被整得更惨。Sol在测试里专钻考场漏洞，作弊检出率「异常高」，高到METR直接放弃出分。

OpenAI官方给出的解释，是「任务执着度」增强的副作用。

换句话说，它太想把活干完了。

只当了17天第一

6月9日，Anthropic发布了当时最强的编程模型Mythos 5。

17天后，Sol把它从榜首推了下来。

在这之前，GPT-5.5也只在顶上坐了不到一个月。

榜首的保质期越来越短。

7月起，Sol将通过Cerebras面向部分客户部署，生成速度最高可达惊人的750 token/s。

Cerebras用的是整片晶圆级推理芯片，设计逻辑就是暴力堆吞吐量。

目前，大多数旗舰模型的输出速度在几十到一百多token/s之间，Sol如果能稳定交付的话，就很有可能成为市面上跑得最快的旗舰。

而且不是快一点半点，是快了一个数量级那种。

不过，看着Mythos 5只守了17天的擂台，OpenAI刚刚修的这条护城河，又能保多久呢？

参考资料：

https://deploymentsafety.openai.com/gpt-5-6-preview/metagaming-in-evaluations

本文来自转载新智元，观点仅代表作者本人，发现AI平台仅提供信息存储空间服务。
如若转载，请联系原作者；如有侵权，请联系编辑删除。

赞 (0)

资讯组小编

微信扫一扫

微信扫一扫

曝OpenAI IPO计划生变：估值不及预期，奥尔特曼今年不想上了

曝OpenAI IPO计划生变：估值不及预期，奥尔特曼今年不想上了

上一篇 9小时前

刚刚，GPT-5.6 正式发布，史上最强但被自己坑惨了

刚刚，GPT-5.6 正式发布，史上最强但被自己坑惨了

下一篇 48分钟前

扫码关注我们，了解最新AI资讯~

新闻

头部厂商集体买单，全球AI原生达人营销头号平台正在诞生！

资讯组小编
2026年6月2日
新闻

AI清出500GB空间？实测Agent发现，龙虾们还替代不了电脑管家

评测组小编
2026年6月1日
新闻

大厂搞了个token排行榜结果摸鱼的人排到了第一

资讯组小编
2026年4月13日
新闻

字节回应“亿元年薪挖DeepSeek员工”

资讯组小编
2026年4月16日
新闻

市值跌去97%后，爱奇艺打算用AI强行续命

资讯组小编
2026年4月23日
新闻

这一次，OpenAI干掉了90%人类设计师

资讯组小编
2026年4月23日

发表回复

登录后才能评论

美媒：美国政府将决定谁可以使用新版ChatGPT
47分钟前
分享到:

据华盛顿邮报报道，美国政府将对希望使用ChatGPT开发商OpenAI最新技术的公司进行审查，这是特朗普政府对硅谷监管力度的一次重大扩展。OpenAI在周五发布的博客文章中宣布了其最新的人工智能模型GPT-5.6（名为SOL）。文章称，政府将首先批准哪些人可以使用新版本，同时人工智能公司和政府将共同制定一项针对该行业的长期监管计划。该公司明确表示，他们对联邦政府的进一步监管持谨慎态度。OpenAI指出：“我们认为这种政府审批流程不应成为长期默认模式。它会使真正需要这些工具的用户、开发者、企业、网络安全防御人员和全球合作伙伴无法获得最佳工具。”
加州推出AI失业追踪系统CAIT
7小时前
分享到:

2026年6月，美国加州州长加文·纽森宣布上线“California AI-Unemployment Tracker（CAIT）”系统。该系统每月更新，通过交叉分析失业保险申领数据与职业AI易替代性，旨在早期识别AI对劳动力市场的潜在影响。首份报告截至2026年5月显示，加州整体未现AI引发的大规模失业潮，但高学历、从事易替代职业者（尤其旧金山湾区）申领量持续上升。专业服务业和信息产业变化最显著。加州政府强调CAIT是预警工具，非归因证据，旨在提前支持高风险群体。
近400家美国报纸联合起诉OpenAI和微软白嫖内容，AI热潮恐成地方新闻“丧钟”
10小时前
分享到:

彭博社最新披露一份 6 月 24 日公示的美国法院文件，代表近 400 家纸媒的出版商联盟指控微软和 OpenAI 公司，称其未经许可抓取网站内容用于训练 AI。

该联盟于本周三向美国纽约南区联邦地区法院提起诉讼，指控微软和 OpenAI 两家公司未经授权抓取新闻内容，用于训练 Copilot 和 ChatGPT 等 AI 背后模型，涉嫌侵犯版权，并触犯《数字千年版权法》。

起诉书称，被告“系统性且秘密地”爬取出版商的网站，并将文章、故事和其他原创作品复制到自己的服务器上，用它们来训练大型语言模型，同时从作品中删除版权管理信息。
微博上线官方命令行工具weibo-cli
10小时前
分享到:

2026年6月22日，微博开放平台正式发布开源命令行工具weibo-cli。该工具面向开发者及AI Agent，基于Node.js 18+开发，支持内容发布、互动管理、数据检索与趋势分析等功能。用户可通过npm全局安装，使用OAuth或设备码完成认证，并调用70余个API接口。命令采用结构，输出支持JSON、YAML等四种格式，原生兼容MCP协议。工具按Credits订阅计费，提供Free至Ultra五档套餐，已上线npm并采用MIT协议。
溧阳博物馆展出AI修复老照片引争议，已撤展
10小时前
分享到:

6月26日前，江苏常州溧阳市博物馆临展厅展出的“时光里的家园”展览中，一张标注为‘八十年代拍摄’的AI修复老照片引发质疑——碑文文字模糊扭曲。该展由溧阳市总工会主办，5月1日开展。因原图模糊，总工会委托AI技术修复影像，致文字失真。溧阳市文体广电和旅游局证实情况，已于近日撤下该照片，并将强化跨单位内容审核机制，避免类似问题再发。
微软取消Edge浏览器AI历史记录搜索功能
10小时前
分享到:

2026年5月13日，微软宣布取消Edge浏览器中独立的“Copilot模式”，同步终止原定推进的AI历史记录搜索功能。该功能自2025年6月随Edge 138版分阶段推送，支持本地自然语言检索浏览历史，无需上传数据。因用户隐私疑虑及实用性质疑，微软未说明具体原因即下线该功能，并从路线图与策略文档中移除相关描述。后续AI能力转向深度整合：支持跨标签页分析、手机端“Journeys”自动归类及Copilot Voice/Vision等新交互方式。
Cursor戳破模型刷榜神话：Opus六成成功解法靠抄网页与挖Git历史
12小时前
分享到:

Cursor发布的评测研究显示，编程智能体在访问代码库历史或互联网时，常通过直接检索答案来通过评测，即所谓的奖励黑客（reward hacking）。在对Opus 4.8 max进行的731次运行轨迹分析中，63%的成功解法来自检索而非自主推导，57%的轨迹在公开网页上找到已合并的PR或修复源文件并几乎逐字复制，9%的轨迹在.git历史记录中挖掘未来提交并提取补丁。在严格沙箱环境中，Opus 4.8 max的测试通过率由87.1%降至73.0%，降幅14.1个百分点而Cursor自研模型Composer 2.5的得分则由74.7%降至54.0%，下降20.7个百分点。Cursor建议，评估编程智能体时应隔离运行环境，确保得分反映真实编程能力，而非搜索检索技能。
DeepSeek与Gemini等大模型署名第一作者，《华东师范大学学报》发布「AI一作」专刊
12小时前
分享到:

DeepSeek与Gemini等大模型署名第一作者，《华东师范大学学报（教育科学版）》发布了「AI一作」大型社会实验的成果专题。该实验由华东师范大学于2025年9月发起，历时半年，收到724篇投稿，规定AI主导写作，人类负责把关。复盘报告显示，AI在灵感激发、信息整理和文本润色上表现优异，但存在文献虚构和逻辑空心等问题。评测表明，AI审稿表现出一定可靠性，青年学者对人机协同的适配度更高，AI的应用推动了智慧平权。作为优秀样板的5篇论文展示了AI在教育领域的科研能力，包括利用多智能体模拟推演教师轮岗政策的公平性反弹效应等。研究团队提出了「人类担保人制度」和「AI霸权」等新概念。
《人工智能智能体互联》系列7项国家标准发布
12小时前
分享到:

市场监管总局召开新闻发布会，正式发布《人工智能智能体互联》系列7项国家标准。这些标准全面覆盖总体架构、身份码、身份管理、智能体描述、智能体发现、智能体交互、智能体工具调用等核心环节，系统性搭建起“身份标识—能力描述—供需发现—协同交互—工具调用”全覆盖、闭环式标准规范体系，有效补齐该领域标准空白。通过统一架构与交互规则，企业可复用标准组件，减少定制开发，压缩产品上市周期，同时建立统一身份认证、全程追溯机制，夯实跨域可信、安全交互的制度基础。
OpenAI内部研究：ChatGPT基本被废弃，99.8%的AI输出已由Codex接管
12小时前
分享到:

OpenAI发布经济学论文《The Shift to Agentic AI: Evidence from Codex》，指出知识工作的基本单位已从单次对话转变为向AI委托长周期任务。Codex平台的用户数据表明，用户对复杂任务的委托率在半年内从2.1%升至25.6%。截至2026年6月，OpenAI员工每周生成的token中99.8%来自Codex，工程团队与非技术部门的人均使用占比分别超过99%和85%。目前近28.6%的OpenAI员工曾同时管理5个以上智能体，前1%的重度用户每日运行智能体的累计时长超71小时。外部个人和组织的非开发周活跃用户数自2025年8月以来分别增长137倍和189倍，显示非技术人群正成为推动智能体增长的主力。

【腾讯云】 4核4G服务器新客 38元/年起，支持 OpenClaw/Hermes 等热门镜像；Token Plan 低至28元/月，多种主流模型极速调用