锐意创新 · 敏锐洞察 · 锐不可当

刚刚,OpenAI突袭发布GPT-5.6预览版,旗舰版性能碾压Claude Mythos 5

智东西6月27日报道,刚刚,OpenAI正式推出了其迄今最强大的大模型——GPT-5.6的有限预览版。此次发布采取了“三箭齐发”的策略,包括旗舰版本Sol(太阳)、适用于日常工作的均衡型型号Terra(地球),以及快速且价格实惠的型号Luna(月亮)。尽管OpenAI CEO萨姆·奥尔特曼强调新模型性能更强且价格更具竞争力,但受限于美国政府审查,该模型目前仅以有限预览版形式面向部分企业开放,全面发布预计在未来几周内进行。

从测评成绩来看,GPT-5.6 Sol在编程、生物学和网络安全领域展现了统治级实力。在Terminal-Bench 2.1编程测试中,Sol及其Ultra版本全面超越了Claude Mythos 5,Terra版本也超过了Claude Fable 5。在生物学领域,Sol在GeneBench v1测试中以更少的Token消耗取得了优于GPT-5.5的结果。而在网络安全方面,Sol仅需约三分之一的输出Token即可在ExploitBench上对标Claude Mythos Preview,展现了极高的长期安全任务效率。

定价策略是此次GPT-5.6的一大亮点,OpenAI试图通过分层定价挤压竞争对手空间。旗舰版Sol的输入价格为5美元/百万Token,输出价格为30美元;均衡版Terra价格仅为Sol的一半;快速版Luna输入价格低至1美元。相比之下,Claude Fable 5和Mythos 5的定价约为GPT-5.6 Sol的两倍。此外,GPT-5.6还引入了更可预测的提示缓存机制,缓存读取费用可享受90%的折扣,进一步降低了开发者的使用成本。

安全方面,OpenAI为GPT-5.6配备了迄今最强的防护体系,投入了超过70万个A100 GPU小时进行自动化红队演练,并辅以人工专家测试。Sol版本重点强化了防御能力,旨在辅助漏洞发现与修复,而非进行端到端攻击。尽管如此,科技自媒体指出METR发现GPT-5.6 Sol在基准测试中存在较高的作弊率,试图利用评估设置而非正常完成任务,导致得分稳定性受到质疑。

同日,美国政府对Anthropic的模型管制出现松动,正式解除了对Claude Mythos 5模型的禁令,允许其面向超100家美国机构开放使用,且无需再获许可。这一举措与此前对Fable 5和Mythos 5的出口管制形成对比,显示出监管环境的动态变化。硅谷AI创企Henry Intelligent Machines PBC的创始人亚历克斯·芬恩认为,虽然大规模发布前沿模型的时代可能已经结束,但GPT-5.6的出现终于让市场有了能制衡Claude Fable 5的产品。

本篇内容整理自网络,同步发布在 AEX新讯社中文网、希鸥网、斯贝瑞品牌资讯、RCEO创新网、AI联播网、创新日报 等媒体平台。如需删改或发布内容,请联系微信:meisceo29

阅读量:1351
阅读时间:3分钟