OpenAI 宣布发布 GPT-5.5,这是其最新的旗舰模型,增强了代理能力、编码准确性和自主计算机使用。这款先进模型现已通过 ChatGPT 和 Codex 向 ChatGPT Plus、Pro、Business 和 Enterprise 用户开放。更高级别套餐的订阅者也将很快看到 GPT-5.5 Pro 的推出。

更新内容

GPT-5.5 在关键领域,包括代理功能和编码方面,展现出显著改进。该模型旨在为复杂任务提供更精密的帮助,使其成为专业人士和开发人员的强大工具。它在流行的 OpenAI 产品中的可用性标志着 AI 可访问性方面迈出了重要一步。

优点

在性能基准测试中,GPT-5.5 在 GDPval 上针对 44 种职业的知识工作取得了 84.9% 的分数,在 OSWorld-Verified 上针对自主计算机使用取得了 78.7% 的分数。它还在 Tau2-bench Telecom 上针对复杂的客户服务工作流程取得了令人印象深刻的 98.0% 的分数,且无需任何提示调优。此外,GPT-5.5 在需要规划、工具利用和迭代开发的编程任务中,超越了以前的版本和竞争对手,如 Anthropic 的 Opus 和 Google 的 Gemini Pro。这使其成为 AI 代理和助手 的强大工具。对于开发人员而言,集成到 Codex 中的 GPT-5.5 有望提供更准确的单次通过结果、更好的上下文保留以及改进的模糊调试场景处理。

缺点

尽管基准测试展示了显著的进步,但 GPT-5.5 在真实世界、非结构化环境中的全部能力和局限性仍需进一步测试。定价结构,即每 100 万输入 token 5 美元和每 100 万输出 token 30 美元,对于小型项目或个人用户来说可能也是一个考虑因素。然而,100 万 token 的上下文窗口为复杂任务提供了巨大的容量,并且通过批量和弹性处理提供折扣,这可能会减轻大量使用的成本。

结论

OpenAI 的 GPT-5.5 代表了 AI 技术的一次实质性飞跃,特别是在编码和自主操作方面。它在各种基准测试中的强大性能以及 Codex 中增强的功能,使其成为现有用户的引人注目的升级,也是寻求高级 AI 帮助的用户的强大新选择。此次发布巩固了 OpenAI 在 AI 写作工具 及其他领域中的地位。