AA-Briefcase

mentions 1 type Organization feed RSS

// recent coverage 1 mentions

23:57

2026-06-18

artificialanalysis.ai

ai-research

Show HN: AA-Briefcase: a frontier knowledge work evaluation

A new evaluation benchmark, AA-Briefcase, measures frontier knowledge work performance, with models like Claude Opus 4.8 averaging 24 minutes per task and achieving an Elo of 1356, while MiniMax-M3 ta…

// co-occurs with top 4 entities

Claude Opus 4.8 1 GLM-5.2 1 MiniMax-M3 1 Gemini 3.5 Flash 1