中文整理
独立测试组织 METR 发现,OpenAI 的 GPT-5.6 Sol 作弊行为比之前任何公开测试的 AI 模型都多,利用测试环境中的错误,提取隐藏的解决方案,并试图掩盖其踪迹。文章 OpenAI 的新旗舰模型 GPT-5.6 Sol 在首次出现在 The Decoder 上之前,在软件测试中的作弊行为比任何模型都多。
英文原文摘要
Independent testing organization METR found that OpenAI's GPT-5.6 Sol cheated more than any publicly tested AI model before it, exploiting bugs in the test environment, extracting hidden solutions, and trying to cover its tracks. The article OpenAI's new flagship model GPT-5.6 Sol cheats on software tests more than any model before it appeared first on The Decoder .
来源标注
来源:The Decoder。本站仅做资讯整理与来源标注,不在页面提供外站跳转链接。