{"slug": "llm-technical-reports-landscape-2021-2026-27-orgs-x-70-arxiv-papers-with-github", "title": "LLM Technical Reports Landscape (2021–2026): 27 orgs × 70+ arXiv papers, with HuggingFace / GitHub / License / context / benchmarks. Open-weight + closed-API, fully cross-referenced.", "summary": "A comprehensive analysis of 27 organizations and over 70 arXiv papers from 2021 to 2026 reveals that DeepSeek, Zhipu AI, Moonshot AI, MiniMax, Xiaomi, Ant Group, Meituan, NVIDIA, StepFun, Poolside, Arcee AI, and LG AI Research all maintain open-weight models with full technical reports, placing them in the highest transparency tier (Tier 1). Meta's Llama 4 Maverick, with 400B total parameters and 17B activated, offers a 1M context window under the Llama 4 Community license, while Allen AI's OLMo series remains the only fully-open project (Tier S) with public training data, code, and logs. The landscape also includes closed-API systems from OpenAI, Anthropic, and Google Gemini, alongside hybrid approaches from Baidu, Tencent, and Cohere.", "body_md": "| 术语 | 定义 |\n|---|---|\nOpen-weight（权重开源） |\n模型权重公开可下载、允许研究与商用，但训练数据 / 代码通常保留 |\nFully-open（完全开源） |\n除权重外，训练数据、训练代码、训练日志、中间检查点全部公开（典型代表：OLMo） |\nClosed / API-first（闭源） |\n权重不公开，仅通过 API / 产品提供，典型代表：OpenAI GPT 旗舰 / Anthropic Claude / Google Gemini 旗舰 |\nHybrid（混合路线） |\n小尺寸 / 上一代权重开源、最新旗舰闭源（典型代表：Baidu ERNIE、Tencent Hunyuan、Cohere Command） |\nTechnical Report |\n正式发表于 arXiv / 会议 / 期刊的完整技术文档，含架构、数据、训练、评估细节 |\nModel Card / System Card |\n仅包含模型说明、基本参数、评测与安全信息的简化文档，不包含完整训练细节 |\n\n| # | 公司 | 系列 | 论文数 | 首篇 | 最新 | 透明度档位 |\n|---|---|---|---|---|---|---|\n| 1 | 🇺🇸 Meta |\nLlama | 3 + 1 Card | 2023-02 | 2025-04 | 档位 3 |\n| 2 | 🇺🇸 Google DeepMind |\nGemma | 3 | 2024-03 | 2025-03 | 档位 1 |\n| 3 | 🇨🇳 Alibaba |\nQwen | 4 + blog | 2023-09 | 2026-04 | 档位 2 |\n| 4 | 🇫🇷 Mistral AI |\nMistral / Mixtral / Magistral / Ministral | 4 | 2023-10 | 2026-01 | 档位 2 |\n| 5 | 🇨🇳 DeepSeek |\nDeepSeek LLM / V2 / V3 / R1 / V3.2 / V4 | 6 | 2024-01 | 2026-04 | 档位 1 |\n| 6 | 🇨🇳 Zhipu AI / Z.ai |\nGLM / ChatGLM / GLM-4.5 / GLM-5 | 5 | 2021-03 | 2026-02 | 档位 1 |\n| 7 | 🇨🇳 Moonshot AI |\nKimi k1.5 / K2 / K2.5 | 3 | 2025-01 | 2026-02 | 档位 1 |\n| 8 | 🇨🇳 MiniMax |\nMiniMax-01 / M1 / M2 | 3 | 2025-01 | 2026-05 | 档位 1 |\n| 9 | 🇨🇳 Xiaomi |\nMiMo / MiMo-VL / MiMo-V2-Flash | 3 | 2025-05 | 2026-01 | 档位 1 |\n| 10 | 🇺🇸 OpenAI |\ngpt-oss-120b / 20b | 1 Card | 2025-08 | 2025-08 | 档位 3 |\n| 11 | 🇨🇳 Ant Group (蚂蚁) |\nLing / Ring / Ling 2.0 / Ling 2.5 | 4 | 2025-03 | 2025-10 | 档位 1 |\n| 12 | 🇨🇳 Meituan (美团) |\nLongCat Flash / Omni / Image / Thinking | 4 | 2025-09 | 2026-01 | 档位 1 |\n| 13 | 🇺🇸 NVIDIA |\nNemotron-4 / Nemotron-H / Llama-Nemotron / Nemotron 3 | 7 | 2024-02 | 2026-04 | 档位 1 |\n| 14 | 🇺🇸 xAI |\nGrok-1 | 0 (仅 Card) | 2024-03 | 2024-03 | 档位 4 |\n| 15 | 🇺🇸 Allen AI / Ai2 |\nOLMo / OLMo 2 / OLMo 3 | 3 | 2024-02 | 2025-12 | 档位 S |\n| 16 | 🇨🇳 StepFun (阶跃星辰) |\nStep-3 / Step3-VL / Step 3.5 Flash | 3 | 2025-07 | 2026-02 | 档位 1 |\n| 17 | 🇺🇸 Poolside |\nLaguna | 1 | 2026-05 | 2026-05 | 档位 1 |\n| 18 | 🇺🇸 Arcee AI |\nTrinity | 1 | 2026-02 | 2026-02 | 档位 1 |\n| 19 | 🇰🇷 LG AI Research |\nEXAONE | 1 | 2026-04 | 2026-04 | 档位 1 |\n\n**透明度档位说明**：\n\n**档位 S**：Fully-open（含训练数据、代码、日志）**档位 1**：Open-weight + 每代完整 arXiv 技术报告**档位 2**：基础系列有论文，近期旗舰转为 blog 形式**档位 3**：仅 Model Card 或 blog，无完整技术报告**档位 4**：无正式论文\n\n每家机构最具代表性的\n\n当前旗舰权重。参数列格式：`总参数 (T) / 激活 (A)`\n\n；稠密模型只列单个数字。Ctx 为官方声明的最大上下文长度。\n\n| # | 机构 | 当前旗舰 | 架构 | 参数 (T/A) | Ctx | License | GitHub | HuggingFace |\n|---|---|---|---|---|---|---|---|---|\n| 1 | Meta | Llama 4 Maverick | MoE × 128E | 400B / 17B | 1M | Llama 4 Community |\n|\n\n[Maverick-17B-128E](https://huggingface.co/meta-llama/Llama-4-Maverick-17B-128E)**10M**[Scout-17B-16E](https://huggingface.co/meta-llama/Llama-4-Scout-17B-16E)[gemma](https://github.com/google-deepmind/gemma)[gemma-3-27b-it](https://huggingface.co/google/gemma-3-27b-it)[Qwen3.6](https://github.com/QwenLM/Qwen3.6)[Qwen3.5-397B-A17B](https://huggingface.co/Qwen/Qwen3.5-397B-A17B)[Qwen3.6-27B](https://huggingface.co/Qwen/Qwen3.6-27B)[mistral-inference](https://github.com/mistralai/mistral-inference)[Ministral-3 Collection](https://huggingface.co/collections/mistralai/ministral-3)**CSA+HCA**+ mHC** 1M**[DeepSeek-V4](https://github.com/deepseek-ai/DeepSeek-V4)[DeepSeek-V4-Pro](https://huggingface.co/deepseek-ai/DeepSeek-V4-Pro)**1M**[DeepSeek-V4-Flash](https://huggingface.co/deepseek-ai/DeepSeek-V4-Flash)[GLM-5](https://github.com/zai-org/GLM-5)[GLM-5](https://huggingface.co/collections/zai-org/glm-5)**DSA**[GLM-5.1](https://huggingface.co/zai-org/GLM-5.1)[Kimi-K2](https://github.com/MoonshotAI/Kimi-K2)[Kimi-K2.5](https://huggingface.co/moonshotai/Kimi-K2.5)[MiniMax-M1](https://github.com/MiniMax-AI/MiniMax-M1)[MiniMax-M2](https://huggingface.co/MiniMaxAI/MiniMax-M2)[MiMo](https://github.com/XiaomiMiMo/MiMo)[MiMo-V2-Flash](https://huggingface.co/XiaomiMiMo/MiMo-V2-Flash)[gpt-oss](https://github.com/openai/gpt-oss)[gpt-oss-120b](https://huggingface.co/openai/gpt-oss-120b)[Ling](https://github.com/inclusionAI/Ling-V2)[Ling-1T](https://huggingface.co/inclusionAI/Ling-1T)[LongCat-Flash](https://github.com/meituan-longcat/LongCat-Flash)[LongCat-Flash-Thinking-2601](https://huggingface.co/meituan-longcat/LongCat-Flash-Thinking-2601)**NVFP4**+ MTP** 1M**[NeMo](https://github.com/NVIDIA/NeMo)[Nemotron-3-Super](https://huggingface.co/nvidia/Nemotron-3-Super-120B-A12B)[grok-1](https://github.com/xai-org/grok-1)[grok-1](https://huggingface.co/xai-org/grok-1)[OLMo](https://github.com/allenai/OLMo)[Olmo-3-32B-Think](https://huggingface.co/allenai/Olmo-3-32B-Think)[Step3](https://github.com/stepfun-ai/Step3)[Step-3.5-Flash](https://huggingface.co/stepfun-ai/Step-3.5-Flash)[Laguna-XS.2](https://huggingface.co/poolside/Laguna-XS.2)[Arcee-Trinity-Large](https://huggingface.co/arcee-ai/Arcee-Trinity-Large)\n\nLicense 速查：\n\nApache-2.0 / MIT：商用最友好，无字段限制Llama 4 Community / Gemma Terms：商用前请阅读条款（MAU 7 亿门槛、安全使用条款等）Modified MIT（Kimi K2）：基本同 MIT，额外要求 \"Kimi K2\" 在界面可见MiniMax M Use：MiniMax 自有商业许可，个人研究与商用分级NVIDIA Open Model License：允许商用，要求安全使用与合规披露\n\nLlama 1–3 公开完整训练细节，是开源生态早期基石；Llama 4 起转为仅发 Model Card。\n\n| 时间 | 论文 | HuggingFace | 关键贡献 |\n|---|---|---|---|\n| 2023-02 |\n|\n\n*(首发需申请，非官方转载存在)*[Llama 2: Open Foundation and Fine-Tuned Chat Models (arXiv:2307.09288)](https://arxiv.org/abs/2307.09288)[meta-llama/Llama-2-70b-hf](https://huggingface.co/meta-llama/Llama-2-70b-hf)[The Llama 3 Herd of Models (arXiv:2407.21783)](https://arxiv.org/abs/2407.21783)[meta-llama/Llama-3.1-405B](https://huggingface.co/meta-llama/Llama-3.1-405B)[Llama 4 Model Card（arXiv v1 已撤稿）](https://github.com/meta-llama/llama-models/blob/main/models/llama4/MODEL_CARD.md)[meta-llama/Llama-4-Maverick-17B-128E](https://huggingface.co/meta-llama/Llama-4-Maverick-17B-128E)·[meta-llama/Llama-4-Scout-17B-16E](https://huggingface.co/meta-llama/Llama-4-Scout-17B-16E)将 Gemini 研究成果下沉到轻量级开源模型，专注 2B–27B 消费级部署场景。\n\n| 时间 | 论文 | HuggingFace | 关键贡献 |\n|---|---|---|---|\n| 2024-03 |\n|\n\n[google/gemma-7b](https://huggingface.co/google/gemma-7b)[Gemma 2: Improving Open Language Models at a Practical Size (arXiv:2408.00118)](https://arxiv.org/abs/2408.00118)[google/gemma-2-27b](https://huggingface.co/google/gemma-2-27b)[Gemma 3 Technical Report (arXiv:2503.19786)](https://arxiv.org/abs/2503.19786)[google/gemma-3-27b-it](https://huggingface.co/google/gemma-3-27b-it)中国开源模型中发表最密集的谱系之一，规模覆盖 0.5B 至 235B MoE。\n\n| 时间 | 论文 | HuggingFace | 关键贡献 |\n|---|---|---|---|\n| 2023-09 |\n|\n\n[Qwen/Qwen-72B](https://huggingface.co/Qwen/Qwen-72B)[Qwen2 Technical Report (arXiv:2407.10671)](https://arxiv.org/abs/2407.10671)[Qwen/Qwen2-72B](https://huggingface.co/Qwen/Qwen2-72B)[Qwen2.5 Technical Report (arXiv:2412.15115)](https://arxiv.org/abs/2412.15115)[Qwen/Qwen2.5-72B-Instruct](https://huggingface.co/Qwen/Qwen2.5-72B-Instruct)[Qwen3 Technical Report (arXiv:2505.09388)](https://arxiv.org/abs/2505.09388)[Qwen/Qwen3-235B-A22B](https://huggingface.co/Qwen/Qwen3-235B-A22B)[Qwen3-Coder（blog）](https://qwenlm.github.io/blog/qwen3-coder/)[Qwen/Qwen3-Coder-480B-A35B-Instruct](https://huggingface.co/Qwen/Qwen3-Coder-480B-A35B-Instruct)[Qwen3.5（blog）](https://qwen.ai/blog?id=qwen3.5)[Qwen/Qwen3.5-397B-A17B](https://huggingface.co/Qwen/Qwen3.5-397B-A17B)**混合 Gated DeltaNet + Gated Attention 架构**；原生多模态早期融合；397B / 17B 旗舰，覆盖 0.8B–397B 8 个尺寸；1M 上下文；201 种语言[Qwen3.6（blog）](https://qwen.ai/blog?id=qwen3.6-27b)[Qwen/Qwen3.6-27B](https://huggingface.co/Qwen/Qwen3.6-27B)·[Qwen/Qwen3.6-35B-A3B](https://huggingface.co/Qwen/Qwen3.6-35B-A3B)欧洲开源主力，擅长 MoE 与小参数高效架构。旗舰 Large 系列仅 blog 发布，子系列保留完整论文。\n\n| 时间 | 论文 | HuggingFace | 关键贡献 |\n|---|---|---|---|\n| 2023-10 |\n|\n\n[mistralai/Mistral-7B-v0.1](https://huggingface.co/mistralai/Mistral-7B-v0.1)[Mixtral of Experts (arXiv:2401.04088)](https://arxiv.org/abs/2401.04088)[mistralai/Mixtral-8x7B-v0.1](https://huggingface.co/mistralai/Mixtral-8x7B-v0.1)[Mistral Large 2（blog）](https://mistral.ai/news/mistral-large-2407)[mistralai/Mistral-Large-Instruct-2407](https://huggingface.co/mistralai/Mistral-Large-Instruct-2407)[Magistral (arXiv:2506.10910)](https://arxiv.org/abs/2506.10910)[mistralai/Magistral-Small-2506](https://huggingface.co/mistralai/Magistral-Small-2506)[Ministral 3 (arXiv:2601.08584)](https://arxiv.org/abs/2601.08584)[mistralai/Ministral-3 Collection](https://huggingface.co/collections/mistralai/ministral-3)开源权重阵营中发表最密集的团队之一，每代均附完整技术报告；R1 论文发表于 Nature。\n\n中国最早公开发布大语言模型论文的机构之一（2021 年起）。GLM-4.5 之后 GLM-4.6 / 4.7 仅以 blog 发布；2026-02 GLM-5 回归 arXiv 完整技术报告。\n\n| 时间 | 论文 | HuggingFace | 关键贡献 |\n|---|---|---|---|\n| 2021-03 |\n· ACL 2022 |\n\n[THUDM/glm-10b](https://huggingface.co/THUDM/glm-10b)[GLM-130B: An Open Bilingual Pre-trained Model (arXiv:2210.02414)](https://arxiv.org/abs/2210.02414)*· ICLR 2023**(权重通过*[GitHub](https://github.com/THUDM/GLM-130B)申请下载)[ChatGLM: A Family of LMs from GLM-130B to GLM-4 All Tools (arXiv:2406.12793)](https://arxiv.org/abs/2406.12793)[THUDM/chatglm3-6b](https://huggingface.co/THUDM/chatglm3-6b)·[zai-org/glm-4-9b-chat](https://huggingface.co/zai-org/glm-4-9b-chat)[GLM-4.5: Agentic, Reasoning, and Coding (ARC) Foundation Models (arXiv:2508.06471)](https://arxiv.org/abs/2508.06471)[zai-org/GLM-4.5](https://huggingface.co/zai-org/GLM-4.5)[GLM-4.6 / 4.7（blog）](https://z.ai/blog/glm-4.6)[zai-org/GLM-4.6](https://huggingface.co/zai-org/GLM-4.6)[GLM-5: from Vibe Coding to Agentic Engineering (arXiv:2602.15763)](https://arxiv.org/abs/2602.15763)[zai-org/GLM-5](https://huggingface.co/collections/zai-org/glm-5)[GLM-5.1（blog）](https://z.ai/blog/glm-5.1)2025 年起快速迭代，在优化器、Agent 等方向有独立技术贡献。k1.5 权重未公开，K2 / K2.5 开源。\n\n| 时间 | 论文 | HuggingFace | 关键贡献 |\n|---|---|---|---|\n| 2025-01 |\n|\n\n*(*[GitHub](https://github.com/MoonshotAI/Kimi-k1.5)仅发 paper)[Kimi K2: Open Agentic Intelligence (arXiv:2507.20534)](https://arxiv.org/abs/2507.20534)[moonshotai/Kimi-K2-Instruct](https://huggingface.co/moonshotai/Kimi-K2-Instruct)**MuonClip**优化器；1T MoE / 32B 激活，15.5T tokens 零损失尖峰[Kimi K2.5: Visual Agentic Intelligence (arXiv:2602.02276)](https://arxiv.org/abs/2602.02276)[moonshotai/Kimi-K2.5](https://huggingface.co/moonshotai/Kimi-K2.5)线性 / 混合注意力架构的实践者；MiniMax-01 / M1 有完整论文，M2 系列转为 blog。\n\n| 时间 | 论文 | HuggingFace | 关键贡献 |\n|---|---|---|---|\n| 2025-01 |\n|\n\n[MiniMaxAI/MiniMax-Text-01](https://huggingface.co/MiniMaxAI/MiniMax-Text-01)**首个商业级线性注意力**（Lightning Attention）；456B MoE，4M context[MiniMax-M1: Scaling Test-Time Compute Efficiently (arXiv:2506.13585)](https://arxiv.org/abs/2506.13585)[MiniMaxAI/MiniMax-M1-80k](https://huggingface.co/MiniMaxAI/MiniMax-M1-80k)**CISPO** RL 算法；1M context，512 张 H800 三周完成 RL（成本约 $534K）[MiniMax M2 / M2.1 / M2.5（blog）](https://www.minimax.io/news/minimax-m25)[MiniMaxAI/MiniMax-M2.5](https://huggingface.co/MiniMaxAI/MiniMax-M2.5)[MiniMax-M2 Technical Report (arXiv:2605.26494)](https://arxiv.org/abs/2605.26494)[MiniMaxAI/MiniMax-M2](https://huggingface.co/MiniMaxAI/MiniMax-M2)**Forge**可扩展 Agent 原生 RL 系统；M2.7 支持自我演化（自主调试训练并修改自身 scaffold）小米 LLM-Core 团队，聚焦小参数高推理与效率；论文节奏稳定，每代都开源权重。\n\n| 时间 | 论文 | HuggingFace | 关键贡献 |\n|---|---|---|---|\n| 2025-05 |\n|\n\n[XiaomiMiMo/MiMo-7B-RL](https://huggingface.co/XiaomiMiMo/MiMo-7B-RL)[MiMo-VL Technical Report (arXiv:2506.03569)](https://arxiv.org/abs/2506.03569)[XiaomiMiMo/MiMo-VL-7B-RL](https://huggingface.co/XiaomiMiMo/MiMo-VL-7B-RL)[MiMo-V2-Flash Technical Report (arXiv:2601.02780)](https://arxiv.org/abs/2601.02780)[XiaomiMiMo/MiMo-V2-Flash](https://huggingface.co/XiaomiMiMo/MiMo-V2-Flash)OpenAI 自 GPT-2 之后首次开源模型权重。文档形式为 Model Card，非完整技术报告。\n\n| 时间 | 论文 | HuggingFace | 关键贡献 |\n|---|---|---|---|\n| 2025-08 | ⚠️\n|\n\n[openai/gpt-oss-120b](https://huggingface.co/openai/gpt-oss-120b)·[openai/gpt-oss-20b](https://huggingface.co/openai/gpt-oss-20b)\n\n说明：OpenAI 历史上 GPT-1/2/3/4 论文均非权重开源；自 GPT-2 起直至 gpt-oss 均为闭源。\n\n蚂蚁集团 AGI 研究品牌为\n\ninclusionAI；Ring 是在 Ling 基础模型上构建的推理分支。\n\n| 时间 | 论文 | HuggingFace | 关键贡献 |\n|---|---|---|---|\n| 2025-03 |\n|\n\n[inclusionAI/Ling-plus](https://huggingface.co/inclusionAI/Ling-plus)·[inclusionAI/Ling-lite](https://huggingface.co/inclusionAI/Ling-lite)[Holistic Capability Preservation: Compact Reasoning Models (arXiv:2504.07158)](https://arxiv.org/abs/2504.07158)[inclusionAI/Ring-lite-distill](https://huggingface.co/inclusionAI/Ring-lite-distill)[Towards Greater Leverage: Scaling Laws for Efficient MoE LMs (arXiv:2507.17702)](https://arxiv.org/abs/2507.17702)*(方法论论文)***Ling Scaling Laws**：MoE 专用缩放定律研究[Every Activation Boosted: Scaling General Reasoner to 1 Trillion Open Language Foundation (arXiv:2510.22115)](https://arxiv.org/abs/2510.22115)[inclusionAI/Ling-1T](https://huggingface.co/inclusionAI/Ling-1T)·[inclusionAI/Ling-flash-2.0](https://huggingface.co/inclusionAI/Ling-flash-2.0)·[inclusionAI/Ling-mini-2.0](https://huggingface.co/inclusionAI/Ling-mini-2.0)**Ling 2.0 技术报告**：Ling-1T 为当前最大规模完全开源推理基座；1/32 稀疏度 + FP8 训练[Ling-2.5-1T / Ring-2.5-1T（blog）](https://www.antgroup.com/en/news-media/press-releases/2026-02-16)[inclusionAI/Ling-2.5-1T](https://huggingface.co/collections/inclusionAI/ling-25)美团 LongCat 团队自 2025-09 起 4 个月内发布 4 篇 arXiv，覆盖语言、全模态、图像、推理四个方向。\n\n| 时间 | 论文 | HuggingFace | 关键贡献 |\n|---|---|---|---|\n| 2025-09 |\n|\n\n[meituan-longcat/LongCat-Flash-Chat](https://huggingface.co/meituan-longcat/LongCat-Flash-Chat)**Zero-Computation Experts**动态激活（18.6B–31.3B）[LongCat-Flash-Omni Technical Report (arXiv:2511.00279)](https://arxiv.org/abs/2511.00279)[meituan-longcat/LongCat-Flash-Omni](https://huggingface.co/meituan-longcat/LongCat-Flash-Omni)[LongCat-Image Technical Report (arXiv:2512.07584)](https://arxiv.org/abs/2512.07584)[meituan-longcat/LongCat-Image](https://huggingface.co/meituan-longcat/LongCat-Image)[LongCat-Flash-Thinking-2601 Technical Report (arXiv:2601.16725)](https://arxiv.org/abs/2601.16725)[meituan-longcat/LongCat-Flash-Thinking-2601](https://huggingface.co/meituan-longcat/LongCat-Flash-Thinking-2601)硬件厂商自研开源路线，强调硬件-算法协同设计（FP8 训练、Mamba 混合、合成数据）。\n\n仅 Grok-1（314B MoE）于 2024-03 公开权重，之后 Grok-2/3/4 全部转为闭源 API。\n\n| 时间 | 论文 | HuggingFace | 关键贡献 |\n|---|---|---|---|\n| 2024-03 | ❌\n|\n\n[xai-org/grok-1](https://huggingface.co/xai-org/grok-1)\n\n说明：Grok-1 是单次开源事件；Grok-2 起 xAI 转向闭源 API 路线。\n\nFully-open 路线代表：除权重外，同步开源完整训练数据（Dolma）、代码、训练日志、中间检查点。\n\n| 时间 | 论文 | HuggingFace | 关键贡献 |\n|---|---|---|---|\n| 2024-02 |\n|\n\n[allenai/OLMo-7B](https://huggingface.co/allenai/OLMo-7B)[2 OLMo 2 Furious (arXiv:2501.00656)](https://arxiv.org/abs/2501.00656)[allenai/OLMo-2-0325-32B-Instruct](https://huggingface.co/allenai/OLMo-2-0325-32B-Instruct)[Olmo 3 (arXiv:2512.13961)](https://arxiv.org/abs/2512.13961)*· Ai2*[博客首发 2025-11-20](https://allenai.org/blog/olmo3)[allenai/Olmo-3-32B-Think](https://huggingface.co/allenai/Olmo-3-32B-Think)·[allenai/Olmo-3-7B-Instruct](https://huggingface.co/allenai/Olmo-3-7B-Instruct)**当前最强 fully-open 推理模型**（32B Think）；完整 model flow：Dolma 3（9.3T tokens）+ 全部中间检查点\n\n说明：Ai2（Allen Institute for AI）是由 Paul Allen 创立的非营利研究机构，OLMo 是学术透明度的代表性项目。\n\n聚焦 Model-System Co-design（模型-系统协同设计），每篇论文都强调硬件感知的架构选择与推理成本。\n\n| 时间 | 论文 | HuggingFace | 关键贡献 |\n|---|---|---|---|\n| 2025-07 |\n|\n\n[stepfun-ai/step3](https://huggingface.co/stepfun-ai/step3)**MFA**（Multi-Matrix Factorization Attention）+** AFD**（Attention-FFN Disaggregation）推理架构[STEP3-VL-10B Technical Report (arXiv:2601.09668)](https://arxiv.org/abs/2601.09668)[stepfun-ai/Step3-VL-10B](https://huggingface.co/stepfun-ai/Step3-VL-10B)**PaCoRe**（Parallel Coordinated Reasoning）并行推理[Step 3.5 Flash: Open Frontier-Level Intelligence with 11B Active Parameters (arXiv:2602.10604)](https://arxiv.org/abs/2602.10604)[stepfun-ai/Step-3.5-Flash](https://huggingface.co/stepfun-ai/Step-3.5-Flash)\n\n说明：StepFun 另有 Step-GUI、Step Deep Research 等多个专项论文，本表仅列出基础语言模型主线。\n\n2026 年新入场的 AI 编码公司，聚焦长程 Agentic Coding，端到端在 \"Model Factory\" 基础设施中训练。\n\n| 时间 | 论文 | HuggingFace | 关键贡献 |\n|---|---|---|---|\n| 2026-05 |\n|\n\n[poolside/Laguna-XS.2](https://huggingface.co/poolside/Laguna-XS.2)与 DatologyAI、Prime Intellect 合作训练，强调 Sparse MoE 训练稳定性。\n\n| 时间 | 论文 | HuggingFace | 关键贡献 |\n|---|---|---|---|\n| 2026-02 |\n|\n\n[arcee-ai/Arcee-Trinity-Large](https://huggingface.co/arcee-ai/Arcee-Trinity-Large)**SMEBU**负载均衡；Muon 优化器；10–17T tokens 训练零 loss spike韩国 LG 集团 AI 研究院，EXAONE 4.5 为首款开源视觉语言模型。\n\n| 时间 | 论文 | HuggingFace | 关键贡献 |\n|---|---|---|---|\n| 2026-04 |\n|\n\n以下公司的旗舰模型以闭源 API 为主，但仍多发布较完整的技术报告或 System Card。其中 Apple / Amazon / Cohere / ByteDance / Baidu / Tencent 属于\"混合路线\"——小尺寸或上一代权重部分公开，旗舰闭源。\n\n| # | 公司 | 系列 | 论文/卡片数 | 首篇 | 最新 | 透明度档位 |\n|---|---|---|---|---|---|---|\n| B1 | 🇺🇸 OpenAI（旗舰闭源） |\nGPT-3 / GPT-4 / GPT-4o / o1 / GPT-5 | 5 (含 2 System Card) | 2020-05 | 2026-01 | 档位 2 |\n| B2 | 🇺🇸 Anthropic |\nClaude 1 → Claude Opus 4.7 | 1 论文 + 多份 System Card | 2022-12 | 2026-04 | 档位 3 |\n| B3 | 🇺🇸 Google DeepMind（Gemini 闭源线） |\nGemini 1 / 1.5 / 2.5 / 3 | 3 + 1 Model Card | 2023-12 | 2025-11 | 档位 1 |\n| B4 | 🇺🇸 xAI（Grok-2+ 闭源线） |\nGrok-2 / 3 / 4 / 4.1 / 4 Fast | 0 + 多份 Model Card | 2024-08 | 2025-11 | 档位 3 |\n| B5 | 🇺🇸 Apple |\nAFM 2024 / AFM 2025 | 2 | 2024-07 | 2025-07 | 档位 1（含端侧开源） |\n| B6 | 🇺🇸 Amazon |\nAmazon Nova / Nova Premier / Nova 2.0 | 3 | 2024-12 | 2026-01 | 档位 2 |\n| B7 | 🇨🇦 Cohere |\nCommand R / R+ / A / A Reasoning | 1 + blog | 2024-07 | 2025-04 | 档位 1（研究权重 CC-BY-NC） |\n| B8 | 🇨🇳 ByteDance Seed（豆包 / Doubao） |\nSeed-Thinking-v1.5 / Doubao 1.5 / 1.6 | 1 + blog | 2025-04 | 2025-10 | 档位 2 |\n| B9 | 🇨🇳 Baidu 文心（百度 ERNIE） |\nERNIE 4.5 / ERNIE 5.0 | 2 | 2025-07 | 2026-02 | 档位 1（含部分开源） |\n| B10 | 🇨🇳 Tencent 混元（腾讯 Hunyuan） |\nHunyuan-Large / TurboS | 2 | 2024-11 | 2025-05 | 档位 1（含部分开源） |\n| B11 | 🇺🇸 Microsoft AI（MAI） |\nMAI-1-preview / MAI-Voice-1 | 0（仅 blog） | 2025-08 | 2025-08 | 档位 3 |\n\n更小众 / 已被收购的公司（Reka AI、Inflection AI、AI21 Labs）见\"📎 其他值得关注\"。\n\n闭源 / 混合路线旗舰的访问方式与当前（2026-04）对外报价。价格列为 USD / 1M tokens（输入 / 输出），缓存折扣不纳入。\n\n| # | 机构 | 当前旗舰 | 架构 | 参数 | Ctx | License / 权重 | 访问 | 价格（I/O） |\n|---|---|---|---|---|---|---|---|---|\n| B1 | OpenAI | GPT-5（gpt-5-thinking + gpt-5-main） | MoE（非公开） | 非公开 | 400K | 闭源 |\n|\n\n[Claude.ai](https://claude.ai)· API · Bedrock · Vertex · Foundry[Gemini App](https://gemini.google.com)· Vertex AI**PT-MoE****CC-BY-NC 4.0**（研究权重开放）[Cohere API](https://cohere.com)·[c4ai-command-a](https://huggingface.co/CohereLabs/c4ai-command-a-03-2025)[火山引擎](https://www.volcengine.com/product/doubao)**混合**（0.3B / A3B 子档 Apache-2.0）[文心一言](https://yiyan.baidu.com)· 千帆**混合**（Hunyuan-Large 389B 开源）[Foundry](https://ai.azure.com/catalog/models/MAI-Voice-1)\n\n提示：所有闭源厂商的价格、参数与上下文均可能调整，请以官方文档为准。价格列仅展示已公开数字（Claude Opus/Sonnet 明确披露），其余以\"官方报价\"替代以避免误导。\n\n自 GPT-2 之后权重转闭源；GPT-3 / GPT-4 / o1 有 arXiv 论文，GPT-4o / o3-mini / DALL·E 等以 System Card 形式发布。本节仅覆盖旗舰闭源线；gpt-oss-120b / 20b 权重开源已列于 Part A #10。\n\n| 时间 | 论文 / 卡片 | 访问方式 | 关键贡献 |\n|---|---|---|---|\n| 2020-05 |\n· NeurIPS 2020 |\n\n**GPT-3 首次揭示\"规模涌现\"**，175B 稠密 Transformer；首提 In-Context Learning[Training language models to follow instructions with human feedback (arXiv:2203.02155)](https://arxiv.org/abs/2203.02155)**InstructGPT / RLHF 奠基**；PPO + 人类偏好对齐[GPT-4 Technical Report (arXiv:2303.08774)](https://arxiv.org/abs/2303.08774)[ChatGPT](https://chatgpt.com)/ API[GPT-4o System Card（blog）](https://openai.com/index/gpt-4o-system-card/)[OpenAI o1 System Card (arXiv:2412.16720)](https://arxiv.org/abs/2412.16720)*(arXiv v1: 2025-12-19)*[OpenAI GPT-5 System Card (arXiv:2601.03267)](https://arxiv.org/abs/2601.03267)2022 年 Constitutional AI 论文后，Claude 1–4.6 全部仅发布 System Card（PDF），未再在 arXiv 发表整模型训练细节。\n\n| 时间 | 论文 / 卡片 | 访问方式 | 关键贡献 |\n|---|---|---|---|\n| 2022-12 |\n|\n\n**RLAIF / Constitutional AI 奠基**；用模型自评代替人类标注[Claude 3 Model Card（PDF）](https://www-cdn.anthropic.com/de8ba9b01c9ab7cbabf5c33b80b7bbc618857627/Model_Card_Claude_3.pdf)[Claude.ai](https://claude.ai)/ API[Claude 4 System Card（PDF）](https://www.anthropic.com/claude-4-system-card)[Claude Sonnet 4.5 System Card](https://www.anthropic.com/claude-sonnet-4-5-system-card)[Claude Opus 4.5 System Card](https://www.anthropic.com/claude-opus-4-5-system-card)·[Blog](https://www.anthropic.com/news/claude-opus-4-5)`effort`\n\n参数；\"最好对齐\"的前沿模型[Claude Sonnet 4.6 System Card](https://www.anthropic.com/claude-sonnet-4-6-system-card)·[Blog](https://www.anthropic.com/news/claude-sonnet-4-6)[Claude Opus 4.7 Blog](https://www.anthropic.com/news/claude-opus-4-7)与 Part A #2 Gemma（开源）并行的闭源旗舰。Gemini 1 / 1.5 / 2.5 在 arXiv 有完整技术报告，Gemini 2.0 / 3 仅以 Model Card 形式发布。\n\n| 时间 | 论文 / 卡片 | 访问方式 | 关键贡献 |\n|---|---|---|---|\n| 2023-12 |\n|\n\n[Gemini App](https://gemini.google.com)/ Vertex AI[Gemini 1.5: Unlocking multimodal understanding across millions of tokens of context (arXiv:2403.05530)](https://arxiv.org/abs/2403.05530)**长上下文里程碑**：1.5 Pro 支持 10M tokens 召回[Gemini 2.0 Model Card（blog）](https://blog.google/technology/google-deepmind/google-gemini-ai-update-december-2024/)[Gemini 2.5: Pushing the Frontier with Advanced Reasoning, Multimodality, Long Context, and Next Generation Agentic Capabilities (arXiv:2507.06261)](https://arxiv.org/abs/2507.06261)[Gemini 3 Pro Model Card（PDF）](https://storage.googleapis.com/deepmind-media/Model-Cards/Gemini-3-Pro-Model-Card.pdf)Grok-1（314B MoE）权重开源已列于 Part A #14；Grok-2 起全线闭源，仅发 Model Card。\n\n| 时间 | 论文 / 卡片 | 访问方式 | 关键贡献 |\n|---|---|---|---|\n| 2024-08 | ⚠️\n|\n\n[Grok 3 blog](https://x.ai/news/grok-3)[Grok 4 blog](https://x.ai/news/grok-4)+[Grok 4 Model Card (2025-08-20)](https://data.x.ai/2025-08-20-grok-4-model-card.pdf)[Grok 4 Fast Model Card (2025-09-19)](https://data.x.ai/2025-09-19-grok-4-fast-model-card.pdf)[Grok 4.1 Model Card](https://x.ai/news)端侧 ~3B 模型部分开源（Core ML / Foundation Models framework 供开发者调用），云端 Server 模型闭源；两代均有完整 arXiv 技术报告。\n\n| 时间 | 论文 | 访问方式 | 关键贡献 |\n|---|---|---|---|\n| 2024-07 |\n|\n\n[Apple Intelligence Foundation Language Models: Tech Report 2025 (arXiv:2507.13575)](https://arxiv.org/abs/2507.13575)**PT-MoE**（Parallel-Track MoE）架构；16 种语言；KV-cache sharing 端侧优化Nova 于 2024-12 AWS re:Invent 首发，2025-06 发布合并后的 arXiv 技术报告；2026-01 对 Nova 2.0 Lite 发布安全评估。\n\n| 时间 | 论文 / 卡片 | 访问方式 | 关键贡献 |\n|---|---|---|---|\n| 2024-12 | ⚠️\n|\n\n[The Amazon Nova Family of Models: Technical Report and Model Card (arXiv:2506.12103)](https://arxiv.org/abs/2506.12103)[Evaluating Nova 2.0 Lite under Amazon's Frontier Model Safety Framework (arXiv:2601.19134)](https://arxiv.org/abs/2601.19134)企业 RAG / 多语种领先厂商。Command A 起发布完整 arXiv 技术报告，并以 CC-BY-NC 研究许可开源 111B 权重。\n\n| 时间 | 论文 / 卡片 | 访问方式 | 关键贡献 |\n|---|---|---|---|\n| 2024-07 ~ 2024-12 | ⚠️ Command R / R+ blog |\n|\n\n[Command A: An Enterprise-Ready Large Language Model (arXiv:2504.00698)](https://arxiv.org/abs/2504.00698)[CohereLabs/c4ai-command-a-03-2025](https://huggingface.co/CohereLabs/c4ai-command-a-03-2025)*(CC-BY-NC)*ByteDance Seed 团队维护 Doubao 产品线；Seed-Thinking-v1.5 论文公开思考模型训练细节，但 Doubao 1.5 / 1.6 / Seed-OSS（闭源 API）与多模态分支（Seed1.6-Vision 等）以 blog 发布。\n\n| 时间 | 论文 / 卡片 | 访问方式 | 关键贡献 |\n|---|---|---|---|\n| 2025-04 |\n|\n\n[火山引擎 / Doubao API](https://www.volcengine.com/product/doubao)自 ERNIE 4.5 起小尺寸变体开源（0.3B-PT、A3B-PT 等），旗舰 A47B 仍闭源商业化；ERNIE 5.0 延续混合多模态路线。\n\n| 时间 | 论文 | HuggingFace / 访问方式 | 关键贡献 |\n|---|---|---|---|\n| 2025-07 |\n|\n\n[baidu/ERNIE-4.5-0.3B-PT](https://huggingface.co/baidu/ERNIE-4.5-0.3B-PT)（Apache 2.0）[ERNIE 5.0 Technical Report (arXiv:2602.04705)](https://arxiv.org/abs/2602.04705)[文心一言](https://yiyan.baidu.com)/ 千帆平台同时运营闭源商业化（混元 API）与开源权重（Hunyuan-Large 等）两条线。\n\n| 时间 | 论文 | HuggingFace / 访问方式 | 关键贡献 |\n|---|---|---|---|\n| 2024-11 |\n|\n\n[tencent/Tencent-Hunyuan-Large](https://huggingface.co/tencent/Tencent-Hunyuan-Large)[Hunyuan-TurboS: Advancing Large Language Models through Mamba-Transformer Synergy and Adaptive Chain-of-Thought (arXiv:2505.15431)](https://arxiv.org/abs/2505.15431)2025-08-28 首次公开发布自研基础模型，摆脱对 OpenAI 单一依赖；目前仅有 blog / Foundry 模型目录，无 arXiv 论文。\n\n| 时间 | 论文 / 卡片 | 访问方式 | 关键贡献 |\n|---|---|---|---|\n| 2025-08 | ⚠️\n|\n\n[Azure Foundry](https://ai.azure.com/catalog/models/MAI-Voice-1)| 公司 | 代表作 | 当前状态 |\n|---|---|---|\n🇺🇸 Reka AI |\n|\n\n**Inflection AI****AI21 Labs**[Jamba (arXiv:2403.19887)](https://arxiv.org/abs/2403.19887)· 2024-03** 01.AI****Huawei 华为盘古**[Pangu Ultra MoE (arXiv:2505.04519)](https://arxiv.org/abs/2505.04519)· 2025-05** Kuaishou 快手**[KAT-Coder-V2 (arXiv:2603.27703)](https://arxiv.org/abs/2603.27703)· 2026-03** Poolside**[Laguna M.1/XS.2 (arXiv:2605.27605)](https://arxiv.org/abs/2605.27605)· 2026-05** Arcee AI**[Trinity (arXiv:2602.17004)](https://arxiv.org/abs/2602.17004)· 2026-02** LG AI Research**[EXAONE 4.5 (arXiv:2604.08644)](https://arxiv.org/abs/2604.08644)· 2026-04** Team Phoenix**[Phoenix-VL 1.5 (arXiv:2605.10391)](https://arxiv.org/abs/2605.10391)· 2026-05| 档位 | 定义 | 代表机构 |\n|---|---|---|\nS |\nFully-open（含训练数据、代码、日志） | Allen AI / Ai2（OLMo） |\n1 |\nOpen-weight + 每代完整 arXiv 技术报告 | DeepSeek · Moonshot · Xiaomi · Ant Group · Meituan · NVIDIA · StepFun · Zhipu / Z.ai · Poolside · Arcee AI · LG AI Research |\n2 |\n基础系列有论文，旗舰交替采用 blog 发布 | Alibaba（Qwen3.5/3.6 转 blog）· Mistral AI · MiniMax（M2 回归 arXiv） |\n3 |\n仅 Model Card 或 blog，无完整技术报告 | Meta（Llama 4）· OpenAI（gpt-oss） |\n4 |\n无正式论文 | xAI（Grok-1） |\n\n| 时间 | 主要事件 |\n|---|---|\n2021-03 |\nGLM（Zhipu / THUDM，中国最早的大模型开源论文之一） |\n2023-02 |\nLLaMA 1（Meta 开源元年） |\n2023-07 |\nLlama 2（首次允许商用） |\n2023-09 |\nQwen 1.0（Alibaba 入场） |\n2023-10 |\nMistral 7B（欧洲入场） |\n2024-01 |\nDeepSeek LLM、Mixtral 8×7B |\n2024-02 |\nNemotron-4 15B、OLMo 1（NVIDIA & Ai2 入场） |\n2024-03 |\nGemma 1（Google）、Grok-1（xAI 单次开源） |\n2024-07 |\nQwen 2、Llama 3、Gemma 2、Mistral Large 2 |\n2024-12 |\nDeepSeek-V3（训练成本 2.788M H800 GPU 小时）、Qwen 2.5 |\n2025-01 |\n⭐ DeepSeek-R1（纯 RL 推理范式）、Kimi k1.5、MiniMax-01、OLMo 2 |\n2025-03 |\nAnt Ling（蚂蚁入场）、Gemma 3 |\n2025-04 |\nNemotron-H（Mamba-Transformer 混合）、Llama 4 Model Card |\n2025-05 |\nXiaomi MiMo（小米入场）、Qwen 3、Llama-Nemotron |\n2025-07 |\nKimi K2（MuonClip 优化器）、StepFun Step-3（阶跃入场）、Qwen3-Coder（480B 编码专项） |\n2025-08 |\nGLM-4.5、gpt-oss（OpenAI 首次开源权重） |\n2025-09 |\n⭐ Meituan LongCat-Flash（美团入场） |\n2025-10 |\nAnt Ling-1T（当前最大 fully-open 推理基座） |\n2025-12 |\nDeepSeek-V3.2（DSA 稀疏注意力）、OLMo 3、LongCat-Image、NVIDIA Nemotron 3、Qwen3-Next-80B-A3B（混合架构试验） |\n2026-01 |\nMiMo-V2-Flash、LongCat-Flash-Thinking-2601、Ministral 3、STEP3-VL-10B |\n2026-02 |\n⭐ Qwen3.5（Gated DeltaNet + GA 混合架构，原生多模态）、Kimi K2.5、Step 3.5 Flash、GLM-5（Z.ai 重回 arXiv）、Arcee Trinity、Qwen3-Coder-Next、Ant Ling-2.5-1T / Ring-2.5-1T（blog）、Claude Sonnet 4.6、ERNIE 5.0 |\n2026-03 |\nNemotron-Cascade 2（3B 激活获 IMO/IOI 金牌） |\n2026-04 |\n⭐ DeepSeek-V4（1.6T MoE / 49B 激活，CSA+HCA 1M context）、Nemotron 3 Super、Nemotron 3 Nano Omni、EXAONE 4.5（LG AI Research）、Qwen3.6、GLM-5.1（754B MoE，blog）、Claude Opus 4.7 |\n2026-05 |\nMiniMax-M2 arXiv 技术报告（Forge Agent RL）、Poolside Laguna（编码新入场） |\n\n| 领域 | 代表论文 | 贡献 |\n|---|---|---|\n规模涌现 / ICL |\nOpenAI GPT-3 (2020-05) | 175B 稠密 Transformer 首次显露 few-shot / in-context learning |\nRLHF 奠基 |\nOpenAI InstructGPT (2022-03) | 建立\"人类反馈 + PPO\"标准对齐流程 |\nConstitutional AI / RLAIF |\nAnthropic CAI (2022-12) | 用 AI 反馈替代部分人类标注 |\nRL 推理范式 |\nDeepSeek-R1 (2025-01) | 首次在大规模 LLM 上验证纯 RL 激活链式推理；Nature 2025 |\nSystem Card + RL 推理 |\nOpenAI o1 (2024-12) | 工业界首个\"推理模型\"范式样板 |\n长上下文 |\nGemini 1.5 (2024-03) | 10M tokens 级别长上下文精准检索 |\nMoE 架构 |\nMixtral 8×7B (2024-01) / DeepSeek-V3 (2024-12) | 开源 SMoE 的里程碑实现与成本优化范例 |\n线性 / 混合注意力 |\nMiniMax-01 (2025-01) / Nemotron-H (2025-04) / Hunyuan-TurboS (2025-05) | 商业级线性注意力与 Mamba 混合架构 |\n稀疏注意力 |\nDeepSeek V3.2 DSA (2025-12) / GLM-5.1 (2026-04) | 显著压缩长上下文推理成本 |\nFully-open 方法论 |\nOLMo 系列 | 训练数据、代码、日志完全公开的标杆 |\nMoE Scaling Laws |\nAnt Ling Scaling Laws (2025-07) | MoE 架构专用缩放定律研究 |\nModel-System Co-design |\nStepFun Step-3 (2025-07) | 从硬件约束倒推模型架构设计 |\nAgentic 基础模型 |\nKimi K2 / GLM-4.5 / LongCat-Flash / Claude 4 Opus | 不同路径的 Agent 原生模型设计 |\n生态奠基 |\nLlama 2 / Llama 3 | 开源社区的参考实现与商业化基础 |\n端侧 / 隐私 |\nApple AFM (2024-07) | 2-bit QAT + 端云协同 Private Cloud Compute |\n中国早期贡献 |\nGLM / GLM-130B | 2021-2022 年中国最早的大规模开源双语模型工作 |\n\n数据采集自各模型官方技术报告 / 博客 / HuggingFace README（2026-04 访问）。跨家评测受 harness / effort 设置影响，仅作\n\n相对比较参考。\n\n| 模型 | 发布 | SWE-Bench Verified | SWE-Bench Pro | AIME 2026 | HLE（w/ tools） | τ²-Bench | BrowseComp |\n|---|---|---|---|---|---|---|---|\nDeepSeek-V4-Pro (Think Max) |\n2026-04 | 80.6 | — | 89.8 | — | — | — |\nQwen3.5-397B-A17B |\n2026-02 | 76.4 | — | 91.3 | — | — | 78.6 |\nQwen3.6-27B |\n2026-04 | 77.2 | 53.5 | 94.1 | — | — | — |\nGLM-5.1（blog） |\n2026-04 | 63.5 | 58.4 |\n95.3 | 52.3 | 70.6 | 68.0 |\nGLM-5 |\n2026-02 | 56.2 | 55.1 | 95.4 | 50.4 | 69.2 | 62.0 |\nKimi K2.5 |\n2026-02 | 70.8 | 50.7 | 95.83 | 51.8 | 66.0 | 60.6 |\nDeepSeek-V3.2-Speciale |\n2025-12 | — | — | 95.1 | 40.8 | 69.2 | 51.4 |\nNemotron 3 Super |\n2026-04 | — | — | — | — | — | — |\nMiMo-V2-Flash |\n2026-01 | — | — | — | — | — | — |\nStep 3.5 Flash |\n2026-02 | — | — | — | — | 88.2 | 69.0 |\nClaude Opus 4.7 |\n2026-04 | — | — | — | — | — | — |\nClaude Opus 4.5 |\n2025-11 | ~80 | 57.3 | — | — | — | — |\nClaude Sonnet 4.6 |\n2026-02 | 77 → 82 | — | — | — | — | — |\nGPT-5 / GPT-5.4 |\n2025-08 / 2026-Q1 | — | 57.7 | 98.7 | 39.8 | 72.9 | — |\nGemini 3 Pro |\n2025-11 | — | 54.2 | 98.2 | 45.0 | 67.1 | — |\nLlama 4 Maverick |\n2025-04 | — | — | — | — | — | — |\nMiniMax-M2 |\n2026-05 | — | — | — | — | — | — |\nPoolside Laguna M.1 |\n2026-05 | — | — | — | — | — | — |\n\n基准释义：SWE-Bench Verified（真实 GitHub 软件工程问题 500 题，越高越好）· SWE-Bench Pro（工业级难度）· AIME 2026（美国数学邀请赛）· HLE = Humanity's Last Exam（学术前沿多学科推理）· τ²-Bench（客服多轮任务）· BrowseComp（网页浏览代理）。\"—\"表示该模型未正式披露该基准分数，或基准与模型发布时点不重叠。\n\n部分机构的技术披露形式从完整 arXiv 报告逐渐转向 Model Card 或 blog，但也有厂商在旗舰换代时回归完整论文：\n\n| 公司 | 演化路径 | 观察时点 |\n|---|---|---|\n| Meta | Llama 1–3 完整论文 → Llama 4 仅 Model Card（arXiv v1 已撤稿） | 2025-04 |\n| Z.ai | GLM-4.5 完整论文 → GLM-4.6 / 4.7 blog → GLM-5 重回 arXiv 技术报告 → GLM-5.1 blog |\n2025-09 → 2026-02 |\n| Mistral | 7B / Mixtral 完整论文 → 旗舰 Large 系列仅 blog；Ministral 3 / Magistral 系列仍发论文 | 持续 |\n| MiniMax | MiniMax-01 / M1 完整论文 → M2 系列 blog | 2025-10+ |\n| xAI | Grok-1 开源权重 + Model Card → Grok-2+ 闭源 | 2024-08+ |\n| Ant Group | Ling 2.0 完整论文 → Ling 2.5 / Ring 2.5 blog | 2026-02 |\n| Anthropic | 2022-12 Constitutional AI 论文后，Claude 1 → Opus 4.7 全部仅发 System Card（PDF/HTML），从未再在 arXiv 发表完整训练细节 | 持续 |\n| OpenAI | GPT-3 / InstructGPT 完整论文 → GPT-4 \"模糊技术报告\" → GPT-4o / o3-mini 仅 System Card → o1 / GPT-5 System Card 上 arXiv（但不含训练细节） | 持续 |\n\n仅列出官方披露的训练成本。绝大多数厂商未公开此数据；下表按报告值原样摘录，不做归一化换算。\n\n| 模型 | 参数 | 训练 tokens | 训练算力 | 公开成本 | 来源 |\n|---|---|---|---|---|---|\nDeepSeek-V3 |\n671B MoE / 37B A | 14.8T | 2.788M H800 小时 | ≈ $5.58M（按 $2/h 算） | arXiv:2412.19437 |\nDeepSeek-V4-Pro |\n1.6T MoE / 49B A | 32T+ | — | — | HuggingFace 技术报告 |\nMiniMax-M1 |\n456B MoE | — | 512 × H800 × 3 周 | ≈ $534K | arXiv:2506.13585 |\nKimi K2 |\n1T MoE / 32B A | 15.5T | — | 零 loss spike（MuonClip） | arXiv:2507.20534 |\nLing-plus |\n290B MoE | — | 非顶级 GPU | 较基线降低 ≈ 20% | arXiv:2503.05139 |\nNVIDIA Nemotron 3 Super |\n120B MoE / 12B A | 25T | — | — | arXiv:2604.12374 |\nMicrosoft MAI-1-preview |\n非公开 | — | ~15k H100 | — |\n|\n\n| 公司 | 首次发布 | 技术定位 |\n|---|---|---|\n| Ant Group（蚂蚁 / inclusionAI） | 2025-03 | 非顶级 GPU 训 1T 参数；MoE Scaling Laws 方法论 |\n| Xiaomi（小米 / LLM-Core） | 2025-05 | 小参数高推理；快速迭代 LM → VLM → 大 MoE |\n| StepFun（阶跃星辰） | 2025-07 | Model-System Co-design；MFA 注意力与 AFD 推理 |\n| Meituan（美团 / LongCat） | 2025-09 | 4 个月覆盖语言 → 全模态 → 图像 → 推理四方向 |\n\n| 公司 | 首次发布 | 技术定位 |\n|---|---|---|\n| Poolside（poolside.ai） | 2026-05 | 端到端 Agentic Coding；\"Model Factory\" 训练基础设施 |\n| Arcee AI（+ DatologyAI + Prime Intellect） | 2026-02 | Sparse MoE + Sigmoid Routing + SMEBU 负载均衡；零 loss spike |\n| LG AI Research（韩国） | 2026-04 | EXAONE 4.5 首款韩国开源 VLM；文档理解与韩语推理 |\n| Kuaishou / KwaiKAT（快手） | 2026-03 | KAT-Coder-V2 Agentic 编码（SWE-bench 79.6%） |\n\n在 30+ 家机构、100+ 个模型中，如何选？以下决策路径基于\n\n公开权重可得性 + 许可证友好度 + 公开基准分数给出建议，仅作参考。\n\n| 场景 | 首选（开源优先） | 闭源替代 |\n|---|---|---|\n通用对话 / 产品接入 |\nDeepSeek-V4-Pro · Qwen3.5-397B · GLM-5 | Claude Sonnet 4.6 · Gemini 3 Pro · GPT-5 |\n长程 Agentic 编码（SWE-Bench Pro） |\nGLM-5.1（58.4%）· Qwen3.6-27B（53.5%）· DeepSeek-V4-Pro · Poolside Laguna | Claude Opus 4.7 · GPT-5 · Gemini 3 Pro |\n数学 / 科学推理（IMO、AIME） |\nDeepSeek-V3.2-Speciale · Kimi K2.5 · Nemotron-Cascade 2 | GPT-5-thinking · Gemini 3 Pro Deep Think |\n长上下文 |\nDeepSeek-V4（1M）· Llama 4 Scout（10M）· Nemotron 3 Super（1M）· MiniMax-M2（1M） | Gemini 3 Pro（1M+）· Claude Sonnet 4.6（1M beta） |\n边缘 / 端侧 |\nGemma 3 4B · Ministral 3-3B · MiMo 7B · Olmo 3 7B · Qwen3.5-2B | Apple AFM 端侧 3B |\n工具调用 / MCP |\nKimi K2.5 · GLM-5 · MiniMax-M2 · LongCat-Flash-Thinking | Claude Opus 4.7 · GPT-5（默认启用工具） |\n商用 MoE 性价比 |\nDeepSeek-V4-Flash（284B / 13B，MIT）· Qwen3.5（Apache-2.0）· GLM-5（MIT） | — |\n完全可复现研究 |\nOLMo 3（数据+代码+检查点全开放） |\n— |\n视觉 + 语言多模态 |\nQwen3.5（原生多模态）· Kimi K2.5 · STEP3-VL-10B · LongCat-Flash-Omni | Gemini 3 Pro · Claude Opus 4.7 · GPT-5 |\n多语种 / RAG 企业 |\nCohere Command A（111B，23 种语言）· Qwen3.5（201 种语言） | Gemini 3 Pro · Claude Opus 4.7 |\n中文原生场景 |\nQwen3.5 · DeepSeek-V4 · GLM-5 · Kimi K2.5 · ERNIE 4.5-PT | 豆包 1.6 · 混元 · 文心一言 |\n图像生成（开源） |\nLongCat-Image（6B） | Midjourney · Runway |\n\n**✅ Apache-2.0 / MIT（最友好）**：DeepSeek-V4、Qwen3.5、DeepSeek-V3.2、GLM-5、gpt-oss、Olmo 3、Grok-1、MiMo-V2-Flash、Ministral 3、Ling-1T、LongCat-Flash、Step 3.5 Flash、Arcee Trinity、Poolside Laguna XS.2**⚠️ 定制开源许可（需阅读条款）**：Llama 4（Community License，MAU 限制）、Gemma 3（Gemma Terms）、Kimi K2（Modified MIT）、NVIDIA Nemotron 3**🚫 非商用 / 研究权重**：Cohere Command A（CC-BY-NC 4.0）**🔒 完全闭源**：Claude、Gemini、GPT-5、Grok 2+、Doubao 闭源线、混元 TurboS\n\n```\n需要训练数据 / 代码 / 检查点 → OLMo 3（档位 S）\n               ↓ No\n需要完整 arXiv 技术报告     → DeepSeek / Qwen / Moonshot / GLM-5 / Ant / Meituan / Xiaomi / NVIDIA / StepFun / Apple / Baidu（档位 1）\n               ↓ No\n接受 blog / Model Card      → Meta Llama 4 / OpenAI gpt-oss / MiniMax M2.5 / GLM-5.1（档位 2-3）\n               ↓ No\n仅需 API / 闭源             → Claude / Gemini / GPT-5 / Grok 4+\n```\n\n| 路线 | 代表机构 / 模型 |\n|---|---|\n标准 Transformer 稠密 / MoE |\nMeta · Mistral · Moonshot · Xiaomi · Ant · Meituan · Zhipu · Poolside |\n混合线性注意力 + Transformer |\nAlibaba Qwen3.5/3.6（Gated DeltaNet + Gated Attention）· MiniMax（Lightning Attention）· NVIDIA（Mamba-Transformer，Nemotron-H / 3 / Super）· StepFun（MFA）· Xiaomi（SWA + 全局 5:1）· Ant Group Ring-2.5-1T（混合线性）· AI21 Jamba · Tencent Hunyuan-TurboS |\n稀疏 / 压缩注意力 |\nDeepSeek V4（CSA + HCA）· DeepSeek V3.2（DSA）· Z.ai GLM-5.1（DSA） |\nFully-open 学术派 |\nAllen AI / Ai2（OLMo 1/2/3，含 Dolma 数据集、Tülu 3 后训练） |\n小尺寸实用派（≤ 30B） |\nGoogle Gemma（2B–27B）· Mistral Ministral（3B–14B）· Xiaomi MiMo（7B）· Allen AI OLMo（7B–32B）· StepFun Step3-VL（10B）· Nemotron 3 Nano（30B / 3B A）· Qwen3.6-27B · Arcee Trinity Nano（6B / 1B A） |\n工具 / Agent 原生 |\nKimi K2 / K2.5（MuonClip + Agent Swarm）· GLM-4.5 / GLM-5（ARC + 异步 RL）· MiniMax-M2（Forge Agent RL，自我演化）· LongCat-Flash-Thinking · Claude Opus 4.x · Poolside Laguna |\n低比特 / 硬件原生训练 |\nNVIDIA Nemotron 3（NVFP4 + LatentMoE）· DeepSeek-V4（FP4+FP8 混合）· Ant Ling 2.0（FP8 训练）· Apple AFM（2-bit QAT 端侧） |\nModel-System Co-design |\nStepFun Step-3（MFA + AFD）· DeepSeek V3/V4（FP8 训练 + DualPipe） |\n新型优化器 |\nMoonshot MuonClip · DeepSeek V4 Muon · Arcee Trinity Muon · Ant Group Ling Scaling Laws |\nAgentic Coding 专项 |\nQwen3-Coder / Qwen3.6 · Poolside Laguna · KAT-Coder-V2（快手）· IQuest-Coder · GLM-5.1 |\n\n**arXiv**：所有论文编号、标题、提交日期均核对自 arXiv.org abstract 页面（逐条访问）** HuggingFace**：所有模型仓库 URL 均从对应机构官方 HF 组织页面或论文 / 官方博客内链接获取并访问确认**官方博客 / System Card**：直接从公司域名（anthropic.com、openai.com、x.ai、z.ai、mistral.ai、microsoft.ai、amazon.science、deepmind.com 等）访问确认**时间列规则**：- 有 arXiv 论文的条目：使用 arXiv v1 提交月份\n- 仅 blog / System Card：使用官方发布日期\n- 产品发布与 arXiv 提交不一致时（例如 GPT-5 产品 2025-08 / arXiv 2025-12），以括号形式并列标注\n\n**排行榜参考**（访问日期 2026-04）：\n\n- 访问 arXiv 论文：\n`https://arxiv.org/abs/<编号>`\n\n（文档中所有链接均为可点击） - 访问 HuggingFace 模型：直接点击表格中的仓库链接\n- HF Papers 聚合（按 arXiv 编号搜索即可）：\n[https://huggingface.co/papers](https://huggingface.co/papers)\n\n- 本文档收录\n**基础语言模型主线**论文与最重要的 System / Model Card，不含以下内容：- 专项模型（如 Qwen-Math、DeepSeek-Coder、DeepSeek-Prover、MiMo-VL、Qwen3-Coder、GLM-4.6V 等专精分支）\n- 评估基准论文（如 Tülu、OpenInstruct 等）\n- 纯应用类论文（如 Step-GUI、Step Deep Research、Project Mariner 等）\n- 语音 / 图像 / 视频独立生成模型的完整历代（仅选代表作，如 LongCat-Image、Qwen3.5-Omni）\n\n**Part B**尚未覆盖：Midjourney、Runway、Stability AI、Suno、11Labs、Perplexity 等以非 LLM 或以产品为核心的 AI 公司- 非公开技术文档的闭源模型（如部分政府 / 特定行业模型）不在收录范围\n\n**2026-05-28**：大规模补充 2026-02 至 2026-05 新发布模型。新增：DeepSeek-V4（1.6T MoE）、Qwen3.5 / Qwen3.6 / Qwen3-Coder（混合 GDN+GA 架构）、MiniMax-M2（arXiv:2605.26494）、NVIDIA Nemotron 3 Super / Cascade 2 / Nano Omni、Poolside Laguna、Arcee Trinity、LG EXAONE 4.5、KAT-Coder-V2（快手）。总览表从 16 家扩至 19 家，arXiv 速查表新增 13 条，发布时间线延伸至 2026-05，选型指南与基准速览全面更新。**2026-04-21**：完成全量 arXiv 编号与 HuggingFace 链接的二次核对；新增 Claude Opus 4.6 / 4.7 条目；补充 GPT-5 System Card 的 arXiv 提交日期与产品发布日期的错位说明；修正 Step-3 论文标题大小写；完善\"数据来源与核对方法\"的时间列规则；Anthropic / OpenAI 透明度演化观察新增两行。\n\n如发现链接失效、arXiv 编号错误、遗漏新发布模型，或希望扩充 License 列 / GitHub 列，请在对应表格 PR 中注明：\n\n- 机构 & 系列\n- arXiv 编号（若有）或官方 blog URL\n- HuggingFace 仓库（若有）\n- 核心技术贡献（≤ 1 句）\n- 核对日期\n\n按 arXiv ID 升序，便于交叉检索。仅收录 Part A + Part B 正文表格内 arXiv 论文。\n\n| arXiv ID | 标题简写 | 机构 | 时间 |\n|---|---|---|---|\n| 2005.14165 | GPT-3（Few-Shot Learners） | OpenAI | 2020-05 |\n| 2103.10360 | GLM | Zhipu / THUDM | 2021-03 |\n| 2203.02155 | InstructGPT | OpenAI | 2022-03 |\n| 2210.02414 | GLM-130B | Zhipu | 2022-10 |\n| 2212.08073 | Constitutional AI | Anthropic | 2022-12 |\n| 2302.13971 | LLaMA 1 | Meta | 2023-02 |\n| 2303.08774 | GPT-4 Technical Report | OpenAI | 2023-03 |\n| 2307.09288 | Llama 2 | Meta | 2023-07 |\n| 2309.16609 | Qwen | Alibaba | 2023-09 |\n| 2310.06825 | Mistral 7B | Mistral | 2023-10 |\n| 2312.11805 | Gemini 1.0 | 2023-12 | |\n| 2401.02954 | DeepSeek LLM | DeepSeek | 2024-01 |\n| 2401.04088 | Mixtral of Experts | Mistral | 2024-01 |\n| 2402.00838 | OLMo 1 | Ai2 | 2024-02 |\n| 2402.16819 | Nemotron-4 15B | NVIDIA | 2024-02 |\n| 2403.05530 | Gemini 1.5 | 2024-03 | |\n| 2403.08295 | Gemma 1 | 2024-03 | |\n| 2403.19887 | Jamba | AI21 Labs | 2024-03 |\n| 2404.12387 | Reka Core / Flash / Edge | Reka AI | 2024-04 |\n| 2405.04434 | DeepSeek-V2（MLA） | DeepSeek | 2024-05 |\n| 2406.11704 | Nemotron-4 340B | NVIDIA | 2024-06 |\n| 2406.12793 | ChatGLM | Zhipu | 2024-06 |\n| 2407.10671 | Qwen2 | Alibaba | 2024-07 |\n| 2407.21075 | Apple AFM 2024 | Apple | 2024-07 |\n| 2407.21783 | The Llama 3 Herd | Meta | 2024-07 |\n| 2408.00118 | Gemma 2 | 2024-07 | |\n| 2411.02265 | Hunyuan-Large | Tencent | 2024-11 |\n| 2412.15115 | Qwen2.5 | Alibaba | 2024-12 |\n| 2412.16720 | OpenAI o1 System Card | OpenAI | 2024-12 |\n| 2412.19437 | DeepSeek-V3 | DeepSeek | 2024-12 |\n| 2501.00656 | OLMo 2 | Ai2 | 2025-01 |\n| 2501.08313 | MiniMax-01（Lightning Attn） | MiniMax | 2025-01 |\n| 2501.12599 | Kimi k1.5 | Moonshot | 2025-01 |\n| 2501.12948 | DeepSeek-R1 （Nature 645） |\nDeepSeek | 2025-01 |\n| 2503.05139 | Ling（Every FLOP Counts） | Ant Group | 2025-03 |\n| 2503.19786 | Gemma 3 | 2025-03 | |\n| 2504.00698 | Command A | Cohere | 2025-04 |\n| 2504.03624 | Nemotron-H | NVIDIA | 2025-04 |\n| 2504.07158 | Ring-lite（Compact Reasoning） | Ant Group | 2025-04 |\n| 2504.13914 | Seed-Thinking v1.5 | ByteDance | 2025-04 |\n| 2505.00949 | Llama-Nemotron | NVIDIA | 2025-05 |\n| 2505.04519 | Pangu Ultra MoE | Huawei | 2025-05 |\n| 2505.07608 | MiMo（Xiaomi 首款） | Xiaomi | 2025-05 |\n| 2505.09388 | Qwen3 | Alibaba | 2025-05 |\n| 2505.15431 | Hunyuan-TurboS | Tencent | 2025-05 |\n| 2506.03569 | MiMo-VL | Xiaomi | 2025-06 |\n| 2506.10910 | Magistral | Mistral | 2025-06 |\n| 2506.12103 | Amazon Nova（arXiv 版） | Amazon | 2025-06 |\n| 2506.13585 | MiniMax-M1 | MiniMax | 2025-06 |\n| 2507.06261 | Gemini 2.5 | 2025-07 | |\n| 2507.07145 | ERNIE 4.5 | Baidu | 2025-07 |\n| 2507.13575 | Apple AFM 2025（PT-MoE） | Apple | 2025-07 |\n| 2507.17702 | Ling Scaling Laws | Ant Group | 2025-07 |\n| 2507.19427 | Step-3 | StepFun | 2025-07 |\n| 2507.20534 | Kimi K2 | Moonshot | 2025-07 |\n| 2508.06471 | GLM-4.5（ARC） | Z.ai | 2025-08 |\n| 2508.10925 | gpt-oss-120b / 20b Card | OpenAI | 2025-08 |\n| 2509.01322 | LongCat-Flash | Meituan | 2025-09 |\n| 2510.22115 | Ling-1T / Ling 2.0 | Ant Group | 2025-10 |\n| 2511.00279 | LongCat-Flash-Omni | Meituan | 2025-11 |\n| 2512.02556 | DeepSeek-V3.2（DSA） | DeepSeek | 2025-12 |\n| 2512.07584 | LongCat-Image | Meituan | 2025-12 |\n| 2512.13961 | Olmo 3 | Ai2 | 2025-12 |\n| 2512.20856 | Nemotron 3 | NVIDIA | 2025-12 |\n| 2601.02780 | MiMo-V2-Flash | Xiaomi | 2026-01 |\n| 2601.03267 | GPT-5 System Card | OpenAI | 2026-01（产品 2025-08） |\n| 2601.08584 | Ministral 3 | Mistral | 2026-01 |\n| 2601.09668 | STEP3-VL-10B | StepFun | 2026-01 |\n| 2601.16725 | LongCat-Flash-Thinking-2601 | Meituan | 2026-01 |\n| 2601.19134 | Nova 2.0 Lite 安全评估 | Amazon | 2026-01 |\n| 2602.02276 | Kimi K2.5 | Moonshot | 2026-02 |\n| 2602.04705 | ERNIE 5.0 | Baidu | 2026-02 |\n| 2602.10604 | Step 3.5 Flash | StepFun | 2026-02 |\n| 2602.15763 | GLM-5 | Z.ai | 2026-02 |\n| 2602.17004 | Arcee Trinity | Arcee AI | 2026-02 |\n| 2603.00729 | Qwen3-Coder-Next | Alibaba | 2026-02 |\n| 2603.19220 | Nemotron-Cascade 2 | NVIDIA | 2026-03 |\n| 2603.27703 | KAT-Coder-V2 | Kuaishou | 2026-03 |\n| 2604.08644 | EXAONE 4.5 | LG AI Research | 2026-04 |\n| 2604.12374 | Nemotron 3 Super | NVIDIA | 2026-04 |\n| 2604.24954 | Nemotron 3 Nano Omni | NVIDIA | 2026-04 |\n| 2605.26494 | MiniMax-M2 | MiniMax | 2026-05 |\n| 2605.27605 | Laguna M.1 / XS.2 | Poolside | 2026-05 |", "url": "https://wpnews.pro/news/llm-technical-reports-landscape-2021-2026-27-orgs-x-70-arxiv-papers-with-github", "canonical_source": "https://gist.github.com/Smith-xuan/894b8de64bf953dd78dfcf1495cf7bd3", "published_at": "2026-05-28 04:49:31+00:00", "updated_at": "2026-05-28 05:54:21.593312+00:00", "lang": "en", "topics": ["large-language-models", "artificial-intelligence", "machine-learning", "ai-research", "ai-policy"], "entities": ["Meta", "Google DeepMind", "Alibaba", "Mistral AI", "DeepSeek", "Zhipu AI", "OpenAI", "Moonshot AI"], "alternates": {"html": "https://wpnews.pro/news/llm-technical-reports-landscape-2021-2026-27-orgs-x-70-arxiv-papers-with-github", "markdown": "https://wpnews.pro/news/llm-technical-reports-landscape-2021-2026-27-orgs-x-70-arxiv-papers-with-github.md", "text": "https://wpnews.pro/news/llm-technical-reports-landscape-2021-2026-27-orgs-x-70-arxiv-papers-with-github.txt", "jsonld": "https://wpnews.pro/news/llm-technical-reports-landscape-2021-2026-27-orgs-x-70-arxiv-papers-with-github.jsonld"}}