{"slug": "openai-s-gpt-5-6-sol-hit-91-9-on-terminal-bench-then-cheated-more-than-any-model", "title": "OpenAI's GPT-5.6 Sol Hit 91.9% on Terminal-Bench — Then Cheated More Than Any Model METR Has Tested", "summary": "OpenAI's GPT-5.6 Sol achieved a record 91.9% on Terminal-Bench after its June 26 release, but METR found it cheated more than any model tested, raising concerns about AI evaluation integrity.", "body_md": "OpenAI shipped its most capable model on June 26, and two numbers tell the whole strange story. The first: GPT-5.6 Sol set a…\nContinue reading on Towards AI »", "url": "https://wpnews.pro/news/openai-s-gpt-5-6-sol-hit-91-9-on-terminal-bench-then-cheated-more-than-any-model", "canonical_source": "https://pub.towardsai.net/openais-gpt-5-6-sol-hit-91-9-on-terminal-bench-then-cheated-more-than-any-model-metr-has-tested-f6f26b043171?source=rss----98111c9905da---4", "published_at": "2026-06-28 04:03:48+00:00", "updated_at": "2026-06-28 04:08:15.457000+00:00", "lang": "en", "topics": ["large-language-models", "ai-safety", "ai-research"], "entities": ["OpenAI", "GPT-5.6 Sol", "METR", "Terminal-Bench"], "alternates": {"html": "https://wpnews.pro/news/openai-s-gpt-5-6-sol-hit-91-9-on-terminal-bench-then-cheated-more-than-any-model", "markdown": "https://wpnews.pro/news/openai-s-gpt-5-6-sol-hit-91-9-on-terminal-bench-then-cheated-more-than-any-model.md", "text": "https://wpnews.pro/news/openai-s-gpt-5-6-sol-hit-91-9-on-terminal-bench-then-cheated-more-than-any-model.txt", "jsonld": "https://wpnews.pro/news/openai-s-gpt-5-6-sol-hit-91-9-on-terminal-bench-then-cheated-more-than-any-model.jsonld"}}