Kimi 2.5

mentions 1 type Person feed RSS

// recent coverage 1 mentions

08:07

2026-06-19

tbench.ai

artificial-intelligence

Terminal-Bench Challenges: long-horizon, token-intensive, single-task benchmarks

Terminal-Bench introduces Challenges, long-horizon, token-intensive, single-task benchmarks requiring agents to build entire codebases from scratch. Three initial challenges—Rust Compiler Speedup, Inf…

// co-occurs with top 7 entities

Terminal-Bench 1 Claude Code 1 Opus 4.8 1 Rust 1 SGLang 1 WebGL 1 WebAssembly 1