{"type": "article", "title": "MiniMax Sparse Attention (MSA): a Two-Branch Block-Sparse Attention Trained on a 109B-Parameter MoE With a 3T-Token Budget", "publisher": "Web Pulse", "url": "https://wpnews.pro/news/minimax-sparse-attention-msa-a-two-branch-block-sparse-attention-trained-on-a-a", "original_source": "https://www.marktechpost.com/2026/06/17/minimax-sparse-attention-msa-a-two-branch-block-sparse-attention-trained-on-a-109b-parameter-moe-with-a-3t-token-budget/", "published": "2026-06-17T07:44:54+00:00", "accessed": "2026-08-02", "id": "minimax-sparse-attention-msa-a-two-branch-block-sparse-attention-trained-on-a-a"}