攻略资讯

OpenAI 推出两款可在本地运行且与高级产品匹配的开源 AI 模型

2025-08-06 04:01:01来源：发米下载作者：zhoucl

本站报道：

OpenAI 周二发布了两种开放权重语言模型，它们在消费硬件上运行时可提供与其商业产品相匹配的性能 - gpt-oss-120b 需要单个 80GB GPU，而 gpt-oss-20b 可在仅具有 16GB 内存的设备上运行。

这模型基于 Apache 2.0 许可的 GPT-4o 模型，在推理基准测试中与 OpenAI 的 o4-mini 几乎旗鼓相当。1200 亿个参数的版本通过其混合专家架构，每个 token 仅激活 51 亿个参数，而 200 亿个参数的模型则激活 36 亿个参数。两者均可处理最多 128,000 个 token 的上下文长度，与 GPT-4o 相同。

这些模型以特定许可证发布，意义重大。这意味着任何人都可以不受限制地使用、修改和利用这些模型。这包括任何人，从你到 OpenAI 的竞争对手，例如中国初创公司DeepSeek.

此次发布正值 GPT-5 即将问世的猜测日益增多，开源 AI 领域的竞争也愈演愈烈之际。OSS 模型是 OpenAI 自 2019 年 GPT-2 以来最新的开放权重语言模型。

GPT-5 目前还没有确切的发布日期，但 Sam Altman 暗示它可能很快就会发布。他今天早些时候在推特上写道：“接下来几天我们会为大家带来很多新内容，”并承诺“本周晚些时候会有一次重大升级”。

今天发布的开源模型非常强大。OpenAI 在其声明中表示：“这些模型在推理任务上的表现优于类似规模的开放模型，展现出强大的工具使用能力，并且针对在消费级硬件上的高效部署进行了优化。”公告该公司使用强化学习以及来自 o3 和其他前沿系统的技术对他们进行训练。

在 Codeforces 竞赛编码中，gpt-oss-120b 在使用工具的情况下获得了 2622 的 Elo 评分，不使用工具的情况下获得了 2463 的评分，超过了 o4-mini 的 2719 评分，接近 o3 的 2706。该模型在 AIME 2024 数学竞赛中的准确率为 96.6%，而 o4-mini 的准确率为 87.3%，在 HealthBench 评估中达到了 57.6%，超过了 o3 的 50.1% 的得分。

图片来源：OpenAI

尽管规模较小，但 gpt-oss-20b 在这些基准测试中与 o3-mini 旗鼓相当甚至超过了它。它在 Codeforces 上用工具获得了 2516 Elo 的得分，在 AIME 2024 上达到了 95.2%，在 HealthBench 上达到了 42.5%——所有这些都符合内存限制，使其能够用于边缘部署。

两种模型都支持三种推理工作量级别——低、中、高，以延迟换取性能。开发人员可以通过系统消息中的一句话来调整这些设置。这些模型使用类似于 o4-mini 的流程进行了后训练，包括监督微调以及 OpenAI 所描述的“高计算 RL 阶段”。

但不要以为任何人都可以随意修改这些模型，就能轻松上手。OpenAI 在预训练阶段过滤掉了与化学、生物、放射性和核威胁相关的某些有害数据。训练后阶段则采用了审慎调整和指令层级结构，教授如何拒绝不安全提示以及如何防御即时注射。

换句话说，OpenAI 声称其模型设计得非常安全，即使经过修改也不会产生有害的反应。

OpenAI 对齐专家 Eric Wallace 透露，公司在发布之前进行了前所未有的安全测试。Wallace 在 X 上发帖称：“我们对模型进行了微调，旨在最大限度地提升其生物和网络能力。” 该团队整理了生物学领域的特定数据，并在编码环境中训练模型，以解决“夺旗”挑战。

经过对抗微调的版本经过三个独立专家组的评估。“在我们的前沿风险评估中，我们经过恶意微调的 gpt-oss 表现不如 OpenAI o3，后者的模型低于“高风险准备”级别，”Wallace 表示。测试表明，即使使用 OpenAI 的训练堆栈进行稳健的微调，这些模型也无法达到该公司“风险准备框架”规定的危险能力水平。

话虽如此，这些模型仍然保持着无监督的思维链推理，OpenAI 表示这对于密切关注 AI 至关重要。该公司表示：“对于两个 gpt-oss 模型，我们都没有对 CoT 进行任何直接监督。我们认为这对于监控模型的不当行为、欺骗和滥用至关重要。”

OpenAI 隐藏了其最佳模型的完整思路，以防止竞争对手复制其结果，并避免再次发生 DeepSeek 事件，而现在这种情况更容易发生。

这些模型可在哈金脸。但正如我们一开始所说的，你需要一个至少有 80GB VRAM 的巨型 GPU（比如 17,000 美元的英伟达 A100）运行版本1200亿个参数。T

较小版本200亿个参数至少需要 16GB 的 VRAM（例如 3000 美元的Nvidia RTX 4090) 在您的 GPU 上，这是一个很大的数字，但对于消费级硬件来说也不是那么疯狂。