LLM Technical Reports Landscape (2021–2026): 27 orgs × 70+ arXiv papers, with HuggingFace / GitHub / License / context / benchmarks. Open-weight + closed-API, fully cross-referenced. A comprehensive analysis of 27 organizations and over 70 arXiv papers from 2021 to 2026 reveals that DeepSeek, Zhipu AI, Moonshot AI, MiniMax, Xiaomi, Ant Group, Meituan, NVIDIA, StepFun, Poolside, Arcee AI, and LG AI Research all maintain open-weight models with full technical reports, placing them in the highest transparency tier (Tier 1). Meta's Llama 4 Maverick, with 400B total parameters and 17B activated, offers a 1M context window under the Llama 4 Community license, while Allen AI's OLMo series remains the only fully-open project (Tier S) with public training data, code, and logs. The landscape also includes closed-API systems from OpenAI, Anthropic, and Google Gemini, alongside hybrid approaches from Baidu, Tencent, and Cohere. | 术语 | 定义 | |---|---| Open-weight(权重开源) | 模型权重公开可下载、允许研究与商用,但训练数据 / 代码通常保留 | Fully-open(完全开源) | 除权重外,训练数据、训练代码、训练日志、中间检查点全部公开(典型代表:OLMo) | Closed / API-first(闭源) | 权重不公开,仅通过 API / 产品提供,典型代表:OpenAI GPT 旗舰 / Anthropic Claude / Google Gemini 旗舰 | Hybrid(混合路线) | 小尺寸 / 上一代权重开源、最新旗舰闭源(典型代表:Baidu ERNIE、Tencent Hunyuan、Cohere Command) | Technical Report | 正式发表于 arXiv / 会议 / 期刊的完整技术文档,含架构、数据、训练、评估细节 | Model Card / System Card | 仅包含模型说明、基本参数、评测与安全信息的简化文档,不包含完整训练细节 | | | 公司 | 系列 | 论文数 | 首篇 | 最新 | 透明度档位 | |---|---|---|---|---|---|---| | 1 | 🇺🇸 Meta | Llama | 3 + 1 Card | 2023-02 | 2025-04 | 档位 3 | | 2 | 🇺🇸 Google DeepMind | Gemma | 3 | 2024-03 | 2025-03 | 档位 1 | | 3 | 🇨🇳 Alibaba | Qwen | 4 + blog | 2023-09 | 2026-04 | 档位 2 | | 4 | 🇫🇷 Mistral AI | Mistral / Mixtral / Magistral / Ministral | 4 | 2023-10 | 2026-01 | 档位 2 | | 5 | 🇨🇳 DeepSeek | DeepSeek LLM / V2 / V3 / R1 / V3.2 / V4 | 6 | 2024-01 | 2026-04 | 档位 1 | | 6 | 🇨🇳 Zhipu AI / Z.ai | GLM / ChatGLM / GLM-4.5 / GLM-5 | 5 | 2021-03 | 2026-02 | 档位 1 | | 7 | 🇨🇳 Moonshot AI | Kimi k1.5 / K2 / K2.5 | 3 | 2025-01 | 2026-02 | 档位 1 | | 8 | 🇨🇳 MiniMax | MiniMax-01 / M1 / M2 | 3 | 2025-01 | 2026-05 | 档位 1 | | 9 | 🇨🇳 Xiaomi | MiMo / MiMo-VL / MiMo-V2-Flash | 3 | 2025-05 | 2026-01 | 档位 1 | | 10 | 🇺🇸 OpenAI | gpt-oss-120b / 20b | 1 Card | 2025-08 | 2025-08 | 档位 3 | | 11 | 🇨🇳 Ant Group 蚂蚁 | Ling / Ring / Ling 2.0 / Ling 2.5 | 4 | 2025-03 | 2025-10 | 档位 1 | | 12 | 🇨🇳 Meituan 美团 | LongCat Flash / Omni / Image / Thinking | 4 | 2025-09 | 2026-01 | 档位 1 | | 13 | 🇺🇸 NVIDIA | Nemotron-4 / Nemotron-H / Llama-Nemotron / Nemotron 3 | 7 | 2024-02 | 2026-04 | 档位 1 | | 14 | 🇺🇸 xAI | Grok-1 | 0 仅 Card | 2024-03 | 2024-03 | 档位 4 | | 15 | 🇺🇸 Allen AI / Ai2 | OLMo / OLMo 2 / OLMo 3 | 3 | 2024-02 | 2025-12 | 档位 S | | 16 | 🇨🇳 StepFun 阶跃星辰 | Step-3 / Step3-VL / Step 3.5 Flash | 3 | 2025-07 | 2026-02 | 档位 1 | | 17 | 🇺🇸 Poolside | Laguna | 1 | 2026-05 | 2026-05 | 档位 1 | | 18 | 🇺🇸 Arcee AI | Trinity | 1 | 2026-02 | 2026-02 | 档位 1 | | 19 | 🇰🇷 LG AI Research | EXAONE | 1 | 2026-04 | 2026-04 | 档位 1 | 透明度档位说明 : 档位 S :Fully-open(含训练数据、代码、日志) 档位 1 :Open-weight + 每代完整 arXiv 技术报告 档位 2 :基础系列有论文,近期旗舰转为 blog 形式 档位 3 :仅 Model Card 或 blog,无完整技术报告 档位 4 :无正式论文 每家机构最具代表性的 当前旗舰权重。参数列格式: 总参数 T / 激活 A ;稠密模型只列单个数字。Ctx 为官方声明的最大上下文长度。 | | 机构 | 当前旗舰 | 架构 | 参数 T/A | Ctx | License | GitHub | HuggingFace | |---|---|---|---|---|---|---|---|---| | 1 | Meta | Llama 4 Maverick | MoE × 128E | 400B / 17B | 1M | Llama 4 Community | | Maverick-17B-128E https://huggingface.co/meta-llama/Llama-4-Maverick-17B-128E 10M Scout-17B-16E https://huggingface.co/meta-llama/Llama-4-Scout-17B-16E gemma https://github.com/google-deepmind/gemma gemma-3-27b-it https://huggingface.co/google/gemma-3-27b-it Qwen3.6 https://github.com/QwenLM/Qwen3.6 Qwen3.5-397B-A17B https://huggingface.co/Qwen/Qwen3.5-397B-A17B Qwen3.6-27B https://huggingface.co/Qwen/Qwen3.6-27B mistral-inference https://github.com/mistralai/mistral-inference Ministral-3 Collection https://huggingface.co/collections/mistralai/ministral-3 CSA+HCA + mHC 1M DeepSeek-V4 https://github.com/deepseek-ai/DeepSeek-V4 DeepSeek-V4-Pro https://huggingface.co/deepseek-ai/DeepSeek-V4-Pro 1M DeepSeek-V4-Flash https://huggingface.co/deepseek-ai/DeepSeek-V4-Flash GLM-5 https://github.com/zai-org/GLM-5 GLM-5 https://huggingface.co/collections/zai-org/glm-5 DSA GLM-5.1 https://huggingface.co/zai-org/GLM-5.1 Kimi-K2 https://github.com/MoonshotAI/Kimi-K2 Kimi-K2.5 https://huggingface.co/moonshotai/Kimi-K2.5 MiniMax-M1 https://github.com/MiniMax-AI/MiniMax-M1 MiniMax-M2 https://huggingface.co/MiniMaxAI/MiniMax-M2 MiMo https://github.com/XiaomiMiMo/MiMo MiMo-V2-Flash https://huggingface.co/XiaomiMiMo/MiMo-V2-Flash gpt-oss https://github.com/openai/gpt-oss gpt-oss-120b https://huggingface.co/openai/gpt-oss-120b Ling https://github.com/inclusionAI/Ling-V2 Ling-1T https://huggingface.co/inclusionAI/Ling-1T LongCat-Flash https://github.com/meituan-longcat/LongCat-Flash LongCat-Flash-Thinking-2601 https://huggingface.co/meituan-longcat/LongCat-Flash-Thinking-2601 NVFP4 + MTP 1M NeMo https://github.com/NVIDIA/NeMo Nemotron-3-Super https://huggingface.co/nvidia/Nemotron-3-Super-120B-A12B grok-1 https://github.com/xai-org/grok-1 grok-1 https://huggingface.co/xai-org/grok-1 OLMo https://github.com/allenai/OLMo Olmo-3-32B-Think https://huggingface.co/allenai/Olmo-3-32B-Think Step3 https://github.com/stepfun-ai/Step3 Step-3.5-Flash https://huggingface.co/stepfun-ai/Step-3.5-Flash Laguna-XS.2 https://huggingface.co/poolside/Laguna-XS.2 Arcee-Trinity-Large https://huggingface.co/arcee-ai/Arcee-Trinity-Large License 速查: Apache-2.0 / MIT:商用最友好,无字段限制Llama 4 Community / Gemma Terms:商用前请阅读条款(MAU 7 亿门槛、安全使用条款等)Modified MIT(Kimi K2):基本同 MIT,额外要求 "Kimi K2" 在界面可见MiniMax M Use:MiniMax 自有商业许可,个人研究与商用分级NVIDIA Open Model License:允许商用,要求安全使用与合规披露 Llama 1–3 公开完整训练细节,是开源生态早期基石;Llama 4 起转为仅发 Model Card。 | 时间 | 论文 | HuggingFace | 关键贡献 | |---|---|---|---| | 2023-02 | | 首发需申请,非官方转载存在 Llama 2: Open Foundation and Fine-Tuned Chat Models arXiv:2307.09288 https://arxiv.org/abs/2307.09288 meta-llama/Llama-2-70b-hf https://huggingface.co/meta-llama/Llama-2-70b-hf The Llama 3 Herd of Models arXiv:2407.21783 https://arxiv.org/abs/2407.21783 meta-llama/Llama-3.1-405B https://huggingface.co/meta-llama/Llama-3.1-405B Llama 4 Model Card(arXiv v1 已撤稿) https://github.com/meta-llama/llama-models/blob/main/models/llama4/MODEL CARD.md meta-llama/Llama-4-Maverick-17B-128E https://huggingface.co/meta-llama/Llama-4-Maverick-17B-128E · meta-llama/Llama-4-Scout-17B-16E https://huggingface.co/meta-llama/Llama-4-Scout-17B-16E 将 Gemini 研究成果下沉到轻量级开源模型,专注 2B–27B 消费级部署场景。 | 时间 | 论文 | HuggingFace | 关键贡献 | |---|---|---|---| | 2024-03 | | google/gemma-7b https://huggingface.co/google/gemma-7b Gemma 2: Improving Open Language Models at a Practical Size arXiv:2408.00118 https://arxiv.org/abs/2408.00118 google/gemma-2-27b https://huggingface.co/google/gemma-2-27b Gemma 3 Technical Report arXiv:2503.19786 https://arxiv.org/abs/2503.19786 google/gemma-3-27b-it https://huggingface.co/google/gemma-3-27b-it 中国开源模型中发表最密集的谱系之一,规模覆盖 0.5B 至 235B MoE。 | 时间 | 论文 | HuggingFace | 关键贡献 | |---|---|---|---| | 2023-09 | | Qwen/Qwen-72B https://huggingface.co/Qwen/Qwen-72B Qwen2 Technical Report arXiv:2407.10671 https://arxiv.org/abs/2407.10671 Qwen/Qwen2-72B https://huggingface.co/Qwen/Qwen2-72B Qwen2.5 Technical Report arXiv:2412.15115 https://arxiv.org/abs/2412.15115 Qwen/Qwen2.5-72B-Instruct https://huggingface.co/Qwen/Qwen2.5-72B-Instruct Qwen3 Technical Report arXiv:2505.09388 https://arxiv.org/abs/2505.09388 Qwen/Qwen3-235B-A22B https://huggingface.co/Qwen/Qwen3-235B-A22B Qwen3-Coder(blog) https://qwenlm.github.io/blog/qwen3-coder/ Qwen/Qwen3-Coder-480B-A35B-Instruct https://huggingface.co/Qwen/Qwen3-Coder-480B-A35B-Instruct Qwen3.5(blog) https://qwen.ai/blog?id=qwen3.5 Qwen/Qwen3.5-397B-A17B https://huggingface.co/Qwen/Qwen3.5-397B-A17B 混合 Gated DeltaNet + Gated Attention 架构 ;原生多模态早期融合;397B / 17B 旗舰,覆盖 0.8B–397B 8 个尺寸;1M 上下文;201 种语言 Qwen3.6(blog) https://qwen.ai/blog?id=qwen3.6-27b Qwen/Qwen3.6-27B https://huggingface.co/Qwen/Qwen3.6-27B · Qwen/Qwen3.6-35B-A3B https://huggingface.co/Qwen/Qwen3.6-35B-A3B 欧洲开源主力,擅长 MoE 与小参数高效架构。旗舰 Large 系列仅 blog 发布,子系列保留完整论文。 | 时间 | 论文 | HuggingFace | 关键贡献 | |---|---|---|---| | 2023-10 | | mistralai/Mistral-7B-v0.1 https://huggingface.co/mistralai/Mistral-7B-v0.1 Mixtral of Experts arXiv:2401.04088 https://arxiv.org/abs/2401.04088 mistralai/Mixtral-8x7B-v0.1 https://huggingface.co/mistralai/Mixtral-8x7B-v0.1 Mistral Large 2(blog) https://mistral.ai/news/mistral-large-2407 mistralai/Mistral-Large-Instruct-2407 https://huggingface.co/mistralai/Mistral-Large-Instruct-2407 Magistral arXiv:2506.10910 https://arxiv.org/abs/2506.10910 mistralai/Magistral-Small-2506 https://huggingface.co/mistralai/Magistral-Small-2506 Ministral 3 arXiv:2601.08584 https://arxiv.org/abs/2601.08584 mistralai/Ministral-3 Collection https://huggingface.co/collections/mistralai/ministral-3 开源权重阵营中发表最密集的团队之一,每代均附完整技术报告;R1 论文发表于 Nature。 中国最早公开发布大语言模型论文的机构之一(2021 年起)。GLM-4.5 之后 GLM-4.6 / 4.7 仅以 blog 发布;2026-02 GLM-5 回归 arXiv 完整技术报告。 | 时间 | 论文 | HuggingFace | 关键贡献 | |---|---|---|---| | 2021-03 | · ACL 2022 | THUDM/glm-10b https://huggingface.co/THUDM/glm-10b GLM-130B: An Open Bilingual Pre-trained Model arXiv:2210.02414 https://arxiv.org/abs/2210.02414 · ICLR 2023 权重通过 GitHub https://github.com/THUDM/GLM-130B 申请下载 ChatGLM: A Family of LMs from GLM-130B to GLM-4 All Tools arXiv:2406.12793 https://arxiv.org/abs/2406.12793 THUDM/chatglm3-6b https://huggingface.co/THUDM/chatglm3-6b · zai-org/glm-4-9b-chat https://huggingface.co/zai-org/glm-4-9b-chat GLM-4.5: Agentic, Reasoning, and Coding ARC Foundation Models arXiv:2508.06471 https://arxiv.org/abs/2508.06471 zai-org/GLM-4.5 https://huggingface.co/zai-org/GLM-4.5 GLM-4.6 / 4.7(blog) https://z.ai/blog/glm-4.6 zai-org/GLM-4.6 https://huggingface.co/zai-org/GLM-4.6 GLM-5: from Vibe Coding to Agentic Engineering arXiv:2602.15763 https://arxiv.org/abs/2602.15763 zai-org/GLM-5 https://huggingface.co/collections/zai-org/glm-5 GLM-5.1(blog) https://z.ai/blog/glm-5.1 2025 年起快速迭代,在优化器、Agent 等方向有独立技术贡献。k1.5 权重未公开,K2 / K2.5 开源。 | 时间 | 论文 | HuggingFace | 关键贡献 | |---|---|---|---| | 2025-01 | | GitHub https://github.com/MoonshotAI/Kimi-k1.5 仅发 paper Kimi K2: Open Agentic Intelligence arXiv:2507.20534 https://arxiv.org/abs/2507.20534 moonshotai/Kimi-K2-Instruct https://huggingface.co/moonshotai/Kimi-K2-Instruct MuonClip 优化器;1T MoE / 32B 激活,15.5T tokens 零损失尖峰 Kimi K2.5: Visual Agentic Intelligence arXiv:2602.02276 https://arxiv.org/abs/2602.02276 moonshotai/Kimi-K2.5 https://huggingface.co/moonshotai/Kimi-K2.5 线性 / 混合注意力架构的实践者;MiniMax-01 / M1 有完整论文,M2 系列转为 blog。 | 时间 | 论文 | HuggingFace | 关键贡献 | |---|---|---|---| | 2025-01 | | MiniMaxAI/MiniMax-Text-01 https://huggingface.co/MiniMaxAI/MiniMax-Text-01 首个商业级线性注意力 (Lightning Attention);456B MoE,4M context MiniMax-M1: Scaling Test-Time Compute Efficiently arXiv:2506.13585 https://arxiv.org/abs/2506.13585 MiniMaxAI/MiniMax-M1-80k https://huggingface.co/MiniMaxAI/MiniMax-M1-80k CISPO RL 算法;1M context,512 张 H800 三周完成 RL(成本约 $534K) MiniMax M2 / M2.1 / M2.5(blog) https://www.minimax.io/news/minimax-m25 MiniMaxAI/MiniMax-M2.5 https://huggingface.co/MiniMaxAI/MiniMax-M2.5 MiniMax-M2 Technical Report arXiv:2605.26494 https://arxiv.org/abs/2605.26494 MiniMaxAI/MiniMax-M2 https://huggingface.co/MiniMaxAI/MiniMax-M2 Forge 可扩展 Agent 原生 RL 系统;M2.7 支持自我演化(自主调试训练并修改自身 scaffold)小米 LLM-Core 团队,聚焦小参数高推理与效率;论文节奏稳定,每代都开源权重。 | 时间 | 论文 | HuggingFace | 关键贡献 | |---|---|---|---| | 2025-05 | | XiaomiMiMo/MiMo-7B-RL https://huggingface.co/XiaomiMiMo/MiMo-7B-RL MiMo-VL Technical Report arXiv:2506.03569 https://arxiv.org/abs/2506.03569 XiaomiMiMo/MiMo-VL-7B-RL https://huggingface.co/XiaomiMiMo/MiMo-VL-7B-RL MiMo-V2-Flash Technical Report arXiv:2601.02780 https://arxiv.org/abs/2601.02780 XiaomiMiMo/MiMo-V2-Flash https://huggingface.co/XiaomiMiMo/MiMo-V2-Flash OpenAI 自 GPT-2 之后首次开源模型权重。文档形式为 Model Card,非完整技术报告。 | 时间 | 论文 | HuggingFace | 关键贡献 | |---|---|---|---| | 2025-08 | ⚠️ | openai/gpt-oss-120b https://huggingface.co/openai/gpt-oss-120b · openai/gpt-oss-20b https://huggingface.co/openai/gpt-oss-20b 说明:OpenAI 历史上 GPT-1/2/3/4 论文均非权重开源;自 GPT-2 起直至 gpt-oss 均为闭源。 蚂蚁集团 AGI 研究品牌为 inclusionAI;Ring 是在 Ling 基础模型上构建的推理分支。 | 时间 | 论文 | HuggingFace | 关键贡献 | |---|---|---|---| | 2025-03 | | inclusionAI/Ling-plus https://huggingface.co/inclusionAI/Ling-plus · inclusionAI/Ling-lite https://huggingface.co/inclusionAI/Ling-lite Holistic Capability Preservation: Compact Reasoning Models arXiv:2504.07158 https://arxiv.org/abs/2504.07158 inclusionAI/Ring-lite-distill https://huggingface.co/inclusionAI/Ring-lite-distill Towards Greater Leverage: Scaling Laws for Efficient MoE LMs arXiv:2507.17702 https://arxiv.org/abs/2507.17702 方法论论文 Ling Scaling Laws :MoE 专用缩放定律研究 Every Activation Boosted: Scaling General Reasoner to 1 Trillion Open Language Foundation arXiv:2510.22115 https://arxiv.org/abs/2510.22115 inclusionAI/Ling-1T https://huggingface.co/inclusionAI/Ling-1T · inclusionAI/Ling-flash-2.0 https://huggingface.co/inclusionAI/Ling-flash-2.0 · inclusionAI/Ling-mini-2.0 https://huggingface.co/inclusionAI/Ling-mini-2.0 Ling 2.0 技术报告 :Ling-1T 为当前最大规模完全开源推理基座;1/32 稀疏度 + FP8 训练 Ling-2.5-1T / Ring-2.5-1T(blog) https://www.antgroup.com/en/news-media/press-releases/2026-02-16 inclusionAI/Ling-2.5-1T https://huggingface.co/collections/inclusionAI/ling-25 美团 LongCat 团队自 2025-09 起 4 个月内发布 4 篇 arXiv,覆盖语言、全模态、图像、推理四个方向。 | 时间 | 论文 | HuggingFace | 关键贡献 | |---|---|---|---| | 2025-09 | | meituan-longcat/LongCat-Flash-Chat https://huggingface.co/meituan-longcat/LongCat-Flash-Chat Zero-Computation Experts 动态激活(18.6B–31.3B) LongCat-Flash-Omni Technical Report arXiv:2511.00279 https://arxiv.org/abs/2511.00279 meituan-longcat/LongCat-Flash-Omni https://huggingface.co/meituan-longcat/LongCat-Flash-Omni LongCat-Image Technical Report arXiv:2512.07584 https://arxiv.org/abs/2512.07584 meituan-longcat/LongCat-Image https://huggingface.co/meituan-longcat/LongCat-Image LongCat-Flash-Thinking-2601 Technical Report arXiv:2601.16725 https://arxiv.org/abs/2601.16725 meituan-longcat/LongCat-Flash-Thinking-2601 https://huggingface.co/meituan-longcat/LongCat-Flash-Thinking-2601 硬件厂商自研开源路线,强调硬件-算法协同设计(FP8 训练、Mamba 混合、合成数据)。 仅 Grok-1(314B MoE)于 2024-03 公开权重,之后 Grok-2/3/4 全部转为闭源 API。 | 时间 | 论文 | HuggingFace | 关键贡献 | |---|---|---|---| | 2024-03 | ❌ | xai-org/grok-1 https://huggingface.co/xai-org/grok-1 说明:Grok-1 是单次开源事件;Grok-2 起 xAI 转向闭源 API 路线。 Fully-open 路线代表:除权重外,同步开源完整训练数据(Dolma)、代码、训练日志、中间检查点。 | 时间 | 论文 | HuggingFace | 关键贡献 | |---|---|---|---| | 2024-02 | | allenai/OLMo-7B https://huggingface.co/allenai/OLMo-7B 2 OLMo 2 Furious arXiv:2501.00656 https://arxiv.org/abs/2501.00656 allenai/OLMo-2-0325-32B-Instruct https://huggingface.co/allenai/OLMo-2-0325-32B-Instruct Olmo 3 arXiv:2512.13961 https://arxiv.org/abs/2512.13961 · Ai2 博客首发 2025-11-20 https://allenai.org/blog/olmo3 allenai/Olmo-3-32B-Think https://huggingface.co/allenai/Olmo-3-32B-Think · allenai/Olmo-3-7B-Instruct https://huggingface.co/allenai/Olmo-3-7B-Instruct 当前最强 fully-open 推理模型 (32B Think);完整 model flow:Dolma 3(9.3T tokens)+ 全部中间检查点 说明:Ai2(Allen Institute for AI)是由 Paul Allen 创立的非营利研究机构,OLMo 是学术透明度的代表性项目。 聚焦 Model-System Co-design(模型-系统协同设计),每篇论文都强调硬件感知的架构选择与推理成本。 | 时间 | 论文 | HuggingFace | 关键贡献 | |---|---|---|---| | 2025-07 | | stepfun-ai/step3 https://huggingface.co/stepfun-ai/step3 MFA (Multi-Matrix Factorization Attention)+ AFD (Attention-FFN Disaggregation)推理架构 STEP3-VL-10B Technical Report arXiv:2601.09668 https://arxiv.org/abs/2601.09668 stepfun-ai/Step3-VL-10B https://huggingface.co/stepfun-ai/Step3-VL-10B PaCoRe (Parallel Coordinated Reasoning)并行推理 Step 3.5 Flash: Open Frontier-Level Intelligence with 11B Active Parameters arXiv:2602.10604 https://arxiv.org/abs/2602.10604 stepfun-ai/Step-3.5-Flash https://huggingface.co/stepfun-ai/Step-3.5-Flash 说明:StepFun 另有 Step-GUI、Step Deep Research 等多个专项论文,本表仅列出基础语言模型主线。 2026 年新入场的 AI 编码公司,聚焦长程 Agentic Coding,端到端在 "Model Factory" 基础设施中训练。 | 时间 | 论文 | HuggingFace | 关键贡献 | |---|---|---|---| | 2026-05 | | poolside/Laguna-XS.2 https://huggingface.co/poolside/Laguna-XS.2 与 DatologyAI、Prime Intellect 合作训练,强调 Sparse MoE 训练稳定性。 | 时间 | 论文 | HuggingFace | 关键贡献 | |---|---|---|---| | 2026-02 | | arcee-ai/Arcee-Trinity-Large https://huggingface.co/arcee-ai/Arcee-Trinity-Large SMEBU 负载均衡;Muon 优化器;10–17T tokens 训练零 loss spike韩国 LG 集团 AI 研究院,EXAONE 4.5 为首款开源视觉语言模型。 | 时间 | 论文 | HuggingFace | 关键贡献 | |---|---|---|---| | 2026-04 | | 以下公司的旗舰模型以闭源 API 为主,但仍多发布较完整的技术报告或 System Card。其中 Apple / Amazon / Cohere / ByteDance / Baidu / Tencent 属于"混合路线"——小尺寸或上一代权重部分公开,旗舰闭源。 | | 公司 | 系列 | 论文/卡片数 | 首篇 | 最新 | 透明度档位 | |---|---|---|---|---|---|---| | B1 | 🇺🇸 OpenAI(旗舰闭源) | GPT-3 / GPT-4 / GPT-4o / o1 / GPT-5 | 5 含 2 System Card | 2020-05 | 2026-01 | 档位 2 | | B2 | 🇺🇸 Anthropic | Claude 1 → Claude Opus 4.7 | 1 论文 + 多份 System Card | 2022-12 | 2026-04 | 档位 3 | | B3 | 🇺🇸 Google DeepMind(Gemini 闭源线) | Gemini 1 / 1.5 / 2.5 / 3 | 3 + 1 Model Card | 2023-12 | 2025-11 | 档位 1 | | B4 | 🇺🇸 xAI(Grok-2+ 闭源线) | Grok-2 / 3 / 4 / 4.1 / 4 Fast | 0 + 多份 Model Card | 2024-08 | 2025-11 | 档位 3 | | B5 | 🇺🇸 Apple | AFM 2024 / AFM 2025 | 2 | 2024-07 | 2025-07 | 档位 1(含端侧开源) | | B6 | 🇺🇸 Amazon | Amazon Nova / Nova Premier / Nova 2.0 | 3 | 2024-12 | 2026-01 | 档位 2 | | B7 | 🇨🇦 Cohere | Command R / R+ / A / A Reasoning | 1 + blog | 2024-07 | 2025-04 | 档位 1(研究权重 CC-BY-NC) | | B8 | 🇨🇳 ByteDance Seed(豆包 / Doubao) | Seed-Thinking-v1.5 / Doubao 1.5 / 1.6 | 1 + blog | 2025-04 | 2025-10 | 档位 2 | | B9 | 🇨🇳 Baidu 文心(百度 ERNIE) | ERNIE 4.5 / ERNIE 5.0 | 2 | 2025-07 | 2026-02 | 档位 1(含部分开源) | | B10 | 🇨🇳 Tencent 混元(腾讯 Hunyuan) | Hunyuan-Large / TurboS | 2 | 2024-11 | 2025-05 | 档位 1(含部分开源) | | B11 | 🇺🇸 Microsoft AI(MAI) | MAI-1-preview / MAI-Voice-1 | 0(仅 blog) | 2025-08 | 2025-08 | 档位 3 | 更小众 / 已被收购的公司(Reka AI、Inflection AI、AI21 Labs)见"📎 其他值得关注"。 闭源 / 混合路线旗舰的访问方式与当前(2026-04)对外报价。价格列为 USD / 1M tokens(输入 / 输出),缓存折扣不纳入。 | | 机构 | 当前旗舰 | 架构 | 参数 | Ctx | License / 权重 | 访问 | 价格(I/O) | |---|---|---|---|---|---|---|---|---| | B1 | OpenAI | GPT-5(gpt-5-thinking + gpt-5-main) | MoE(非公开) | 非公开 | 400K | 闭源 | | Claude.ai https://claude.ai · API · Bedrock · Vertex · Foundry Gemini App https://gemini.google.com · Vertex AI PT-MoE CC-BY-NC 4.0 (研究权重开放) Cohere API https://cohere.com · c4ai-command-a https://huggingface.co/CohereLabs/c4ai-command-a-03-2025 火山引擎 https://www.volcengine.com/product/doubao 混合 (0.3B / A3B 子档 Apache-2.0) 文心一言 https://yiyan.baidu.com · 千帆 混合 (Hunyuan-Large 389B 开源) Foundry https://ai.azure.com/catalog/models/MAI-Voice-1 提示:所有闭源厂商的价格、参数与上下文均可能调整,请以官方文档为准。价格列仅展示已公开数字(Claude Opus/Sonnet 明确披露),其余以"官方报价"替代以避免误导。 自 GPT-2 之后权重转闭源;GPT-3 / GPT-4 / o1 有 arXiv 论文,GPT-4o / o3-mini / DALL·E 等以 System Card 形式发布。本节仅覆盖旗舰闭源线;gpt-oss-120b / 20b 权重开源已列于 Part A 10。 | 时间 | 论文 / 卡片 | 访问方式 | 关键贡献 | |---|---|---|---| | 2020-05 | · NeurIPS 2020 | GPT-3 首次揭示"规模涌现" ,175B 稠密 Transformer;首提 In-Context Learning Training language models to follow instructions with human feedback arXiv:2203.02155 https://arxiv.org/abs/2203.02155 InstructGPT / RLHF 奠基 ;PPO + 人类偏好对齐 GPT-4 Technical Report arXiv:2303.08774 https://arxiv.org/abs/2303.08774 ChatGPT https://chatgpt.com / API GPT-4o System Card(blog) https://openai.com/index/gpt-4o-system-card/ OpenAI o1 System Card arXiv:2412.16720 https://arxiv.org/abs/2412.16720 arXiv v1: 2025-12-19 OpenAI GPT-5 System Card arXiv:2601.03267 https://arxiv.org/abs/2601.03267 2022 年 Constitutional AI 论文后,Claude 1–4.6 全部仅发布 System Card(PDF),未再在 arXiv 发表整模型训练细节。 | 时间 | 论文 / 卡片 | 访问方式 | 关键贡献 | |---|---|---|---| | 2022-12 | | RLAIF / Constitutional AI 奠基 ;用模型自评代替人类标注 Claude 3 Model Card(PDF) https://www-cdn.anthropic.com/de8ba9b01c9ab7cbabf5c33b80b7bbc618857627/Model Card Claude 3.pdf Claude.ai https://claude.ai / API Claude 4 System Card(PDF) https://www.anthropic.com/claude-4-system-card Claude Sonnet 4.5 System Card https://www.anthropic.com/claude-sonnet-4-5-system-card Claude Opus 4.5 System Card https://www.anthropic.com/claude-opus-4-5-system-card · Blog https://www.anthropic.com/news/claude-opus-4-5 effort 参数;"最好对齐"的前沿模型 Claude Sonnet 4.6 System Card https://www.anthropic.com/claude-sonnet-4-6-system-card · Blog https://www.anthropic.com/news/claude-sonnet-4-6 Claude Opus 4.7 Blog https://www.anthropic.com/news/claude-opus-4-7 与 Part A 2 Gemma(开源)并行的闭源旗舰。Gemini 1 / 1.5 / 2.5 在 arXiv 有完整技术报告,Gemini 2.0 / 3 仅以 Model Card 形式发布。 | 时间 | 论文 / 卡片 | 访问方式 | 关键贡献 | |---|---|---|---| | 2023-12 | | Gemini App https://gemini.google.com / Vertex AI Gemini 1.5: Unlocking multimodal understanding across millions of tokens of context arXiv:2403.05530 https://arxiv.org/abs/2403.05530 长上下文里程碑 :1.5 Pro 支持 10M tokens 召回 Gemini 2.0 Model Card(blog) https://blog.google/technology/google-deepmind/google-gemini-ai-update-december-2024/ Gemini 2.5: Pushing the Frontier with Advanced Reasoning, Multimodality, Long Context, and Next Generation Agentic Capabilities arXiv:2507.06261 https://arxiv.org/abs/2507.06261 Gemini 3 Pro Model Card(PDF) https://storage.googleapis.com/deepmind-media/Model-Cards/Gemini-3-Pro-Model-Card.pdf Grok-1(314B MoE)权重开源已列于 Part A 14;Grok-2 起全线闭源,仅发 Model Card。 | 时间 | 论文 / 卡片 | 访问方式 | 关键贡献 | |---|---|---|---| | 2024-08 | ⚠️ | Grok 3 blog https://x.ai/news/grok-3 Grok 4 blog https://x.ai/news/grok-4 + Grok 4 Model Card 2025-08-20 https://data.x.ai/2025-08-20-grok-4-model-card.pdf Grok 4 Fast Model Card 2025-09-19 https://data.x.ai/2025-09-19-grok-4-fast-model-card.pdf Grok 4.1 Model Card https://x.ai/news 端侧 ~3B 模型部分开源(Core ML / Foundation Models framework 供开发者调用),云端 Server 模型闭源;两代均有完整 arXiv 技术报告。 | 时间 | 论文 | 访问方式 | 关键贡献 | |---|---|---|---| | 2024-07 | | Apple Intelligence Foundation Language Models: Tech Report 2025 arXiv:2507.13575 https://arxiv.org/abs/2507.13575 PT-MoE (Parallel-Track MoE)架构;16 种语言;KV-cache sharing 端侧优化Nova 于 2024-12 AWS re:Invent 首发,2025-06 发布合并后的 arXiv 技术报告;2026-01 对 Nova 2.0 Lite 发布安全评估。 | 时间 | 论文 / 卡片 | 访问方式 | 关键贡献 | |---|---|---|---| | 2024-12 | ⚠️ | The Amazon Nova Family of Models: Technical Report and Model Card arXiv:2506.12103 https://arxiv.org/abs/2506.12103 Evaluating Nova 2.0 Lite under Amazon's Frontier Model Safety Framework arXiv:2601.19134 https://arxiv.org/abs/2601.19134 企业 RAG / 多语种领先厂商。Command A 起发布完整 arXiv 技术报告,并以 CC-BY-NC 研究许可开源 111B 权重。 | 时间 | 论文 / 卡片 | 访问方式 | 关键贡献 | |---|---|---|---| | 2024-07 ~ 2024-12 | ⚠️ Command R / R+ blog | | Command A: An Enterprise-Ready Large Language Model arXiv:2504.00698 https://arxiv.org/abs/2504.00698 CohereLabs/c4ai-command-a-03-2025 https://huggingface.co/CohereLabs/c4ai-command-a-03-2025 CC-BY-NC ByteDance Seed 团队维护 Doubao 产品线;Seed-Thinking-v1.5 论文公开思考模型训练细节,但 Doubao 1.5 / 1.6 / Seed-OSS(闭源 API)与多模态分支(Seed1.6-Vision 等)以 blog 发布。 | 时间 | 论文 / 卡片 | 访问方式 | 关键贡献 | |---|---|---|---| | 2025-04 | | 火山引擎 / Doubao API https://www.volcengine.com/product/doubao 自 ERNIE 4.5 起小尺寸变体开源(0.3B-PT、A3B-PT 等),旗舰 A47B 仍闭源商业化;ERNIE 5.0 延续混合多模态路线。 | 时间 | 论文 | HuggingFace / 访问方式 | 关键贡献 | |---|---|---|---| | 2025-07 | | baidu/ERNIE-4.5-0.3B-PT https://huggingface.co/baidu/ERNIE-4.5-0.3B-PT (Apache 2.0) ERNIE 5.0 Technical Report arXiv:2602.04705 https://arxiv.org/abs/2602.04705 文心一言 https://yiyan.baidu.com / 千帆平台同时运营闭源商业化(混元 API)与开源权重(Hunyuan-Large 等)两条线。 | 时间 | 论文 | HuggingFace / 访问方式 | 关键贡献 | |---|---|---|---| | 2024-11 | | tencent/Tencent-Hunyuan-Large https://huggingface.co/tencent/Tencent-Hunyuan-Large Hunyuan-TurboS: Advancing Large Language Models through Mamba-Transformer Synergy and Adaptive Chain-of-Thought arXiv:2505.15431 https://arxiv.org/abs/2505.15431 2025-08-28 首次公开发布自研基础模型,摆脱对 OpenAI 单一依赖;目前仅有 blog / Foundry 模型目录,无 arXiv 论文。 | 时间 | 论文 / 卡片 | 访问方式 | 关键贡献 | |---|---|---|---| | 2025-08 | ⚠️ | Azure Foundry https://ai.azure.com/catalog/models/MAI-Voice-1 | 公司 | 代表作 | 当前状态 | |---|---|---| 🇺🇸 Reka AI | | Inflection AI AI21 Labs Jamba arXiv:2403.19887 https://arxiv.org/abs/2403.19887 · 2024-03 01.AI Huawei 华为盘古 Pangu Ultra MoE arXiv:2505.04519 https://arxiv.org/abs/2505.04519 · 2025-05 Kuaishou 快手 KAT-Coder-V2 arXiv:2603.27703 https://arxiv.org/abs/2603.27703 · 2026-03 Poolside Laguna M.1/XS.2 arXiv:2605.27605 https://arxiv.org/abs/2605.27605 · 2026-05 Arcee AI Trinity arXiv:2602.17004 https://arxiv.org/abs/2602.17004 · 2026-02 LG AI Research EXAONE 4.5 arXiv:2604.08644 https://arxiv.org/abs/2604.08644 · 2026-04 Team Phoenix Phoenix-VL 1.5 arXiv:2605.10391 https://arxiv.org/abs/2605.10391 · 2026-05| 档位 | 定义 | 代表机构 | |---|---|---| S | Fully-open(含训练数据、代码、日志) | Allen AI / Ai2(OLMo) | 1 | Open-weight + 每代完整 arXiv 技术报告 | DeepSeek · Moonshot · Xiaomi · Ant Group · Meituan · NVIDIA · StepFun · Zhipu / Z.ai · Poolside · Arcee AI · LG AI Research | 2 | 基础系列有论文,旗舰交替采用 blog 发布 | Alibaba(Qwen3.5/3.6 转 blog)· Mistral AI · MiniMax(M2 回归 arXiv) | 3 | 仅 Model Card 或 blog,无完整技术报告 | Meta(Llama 4)· OpenAI(gpt-oss) | 4 | 无正式论文 | xAI(Grok-1) | | 时间 | 主要事件 | |---|---| 2021-03 | GLM(Zhipu / THUDM,中国最早的大模型开源论文之一) | 2023-02 | LLaMA 1(Meta 开源元年) | 2023-07 | Llama 2(首次允许商用) | 2023-09 | Qwen 1.0(Alibaba 入场) | 2023-10 | Mistral 7B(欧洲入场) | 2024-01 | DeepSeek LLM、Mixtral 8×7B | 2024-02 | Nemotron-4 15B、OLMo 1(NVIDIA & Ai2 入场) | 2024-03 | Gemma 1(Google)、Grok-1(xAI 单次开源) | 2024-07 | Qwen 2、Llama 3、Gemma 2、Mistral Large 2 | 2024-12 | DeepSeek-V3(训练成本 2.788M H800 GPU 小时)、Qwen 2.5 | 2025-01 | ⭐ DeepSeek-R1(纯 RL 推理范式)、Kimi k1.5、MiniMax-01、OLMo 2 | 2025-03 | Ant Ling(蚂蚁入场)、Gemma 3 | 2025-04 | Nemotron-H(Mamba-Transformer 混合)、Llama 4 Model Card | 2025-05 | Xiaomi MiMo(小米入场)、Qwen 3、Llama-Nemotron | 2025-07 | Kimi K2(MuonClip 优化器)、StepFun Step-3(阶跃入场)、Qwen3-Coder(480B 编码专项) | 2025-08 | GLM-4.5、gpt-oss(OpenAI 首次开源权重) | 2025-09 | ⭐ Meituan LongCat-Flash(美团入场) | 2025-10 | Ant Ling-1T(当前最大 fully-open 推理基座) | 2025-12 | DeepSeek-V3.2(DSA 稀疏注意力)、OLMo 3、LongCat-Image、NVIDIA Nemotron 3、Qwen3-Next-80B-A3B(混合架构试验) | 2026-01 | MiMo-V2-Flash、LongCat-Flash-Thinking-2601、Ministral 3、STEP3-VL-10B | 2026-02 | ⭐ Qwen3.5(Gated DeltaNet + GA 混合架构,原生多模态)、Kimi K2.5、Step 3.5 Flash、GLM-5(Z.ai 重回 arXiv)、Arcee Trinity、Qwen3-Coder-Next、Ant Ling-2.5-1T / Ring-2.5-1T(blog)、Claude Sonnet 4.6、ERNIE 5.0 | 2026-03 | Nemotron-Cascade 2(3B 激活获 IMO/IOI 金牌) | 2026-04 | ⭐ DeepSeek-V4(1.6T MoE / 49B 激活,CSA+HCA 1M context)、Nemotron 3 Super、Nemotron 3 Nano Omni、EXAONE 4.5(LG AI Research)、Qwen3.6、GLM-5.1(754B MoE,blog)、Claude Opus 4.7 | 2026-05 | MiniMax-M2 arXiv 技术报告(Forge Agent RL)、Poolside Laguna(编码新入场) | | 领域 | 代表论文 | 贡献 | |---|---|---| 规模涌现 / ICL | OpenAI GPT-3 2020-05 | 175B 稠密 Transformer 首次显露 few-shot / in-context learning | RLHF 奠基 | OpenAI InstructGPT 2022-03 | 建立"人类反馈 + PPO"标准对齐流程 | Constitutional AI / RLAIF | Anthropic CAI 2022-12 | 用 AI 反馈替代部分人类标注 | RL 推理范式 | DeepSeek-R1 2025-01 | 首次在大规模 LLM 上验证纯 RL 激活链式推理;Nature 2025 | System Card + RL 推理 | OpenAI o1 2024-12 | 工业界首个"推理模型"范式样板 | 长上下文 | Gemini 1.5 2024-03 | 10M tokens 级别长上下文精准检索 | MoE 架构 | Mixtral 8×7B 2024-01 / DeepSeek-V3 2024-12 | 开源 SMoE 的里程碑实现与成本优化范例 | 线性 / 混合注意力 | MiniMax-01 2025-01 / Nemotron-H 2025-04 / Hunyuan-TurboS 2025-05 | 商业级线性注意力与 Mamba 混合架构 | 稀疏注意力 | DeepSeek V3.2 DSA 2025-12 / GLM-5.1 2026-04 | 显著压缩长上下文推理成本 | Fully-open 方法论 | OLMo 系列 | 训练数据、代码、日志完全公开的标杆 | MoE Scaling Laws | Ant Ling Scaling Laws 2025-07 | MoE 架构专用缩放定律研究 | Model-System Co-design | StepFun Step-3 2025-07 | 从硬件约束倒推模型架构设计 | Agentic 基础模型 | Kimi K2 / GLM-4.5 / LongCat-Flash / Claude 4 Opus | 不同路径的 Agent 原生模型设计 | 生态奠基 | Llama 2 / Llama 3 | 开源社区的参考实现与商业化基础 | 端侧 / 隐私 | Apple AFM 2024-07 | 2-bit QAT + 端云协同 Private Cloud Compute | 中国早期贡献 | GLM / GLM-130B | 2021-2022 年中国最早的大规模开源双语模型工作 | 数据采集自各模型官方技术报告 / 博客 / HuggingFace README(2026-04 访问)。跨家评测受 harness / effort 设置影响,仅作 相对比较参考。 | 模型 | 发布 | SWE-Bench Verified | SWE-Bench Pro | AIME 2026 | HLE(w/ tools) | τ²-Bench | BrowseComp | |---|---|---|---|---|---|---|---| DeepSeek-V4-Pro Think Max | 2026-04 | 80.6 | — | 89.8 | — | — | — | Qwen3.5-397B-A17B | 2026-02 | 76.4 | — | 91.3 | — | — | 78.6 | Qwen3.6-27B | 2026-04 | 77.2 | 53.5 | 94.1 | — | — | — | GLM-5.1(blog) | 2026-04 | 63.5 | 58.4 | 95.3 | 52.3 | 70.6 | 68.0 | GLM-5 | 2026-02 | 56.2 | 55.1 | 95.4 | 50.4 | 69.2 | 62.0 | Kimi K2.5 | 2026-02 | 70.8 | 50.7 | 95.83 | 51.8 | 66.0 | 60.6 | DeepSeek-V3.2-Speciale | 2025-12 | — | — | 95.1 | 40.8 | 69.2 | 51.4 | Nemotron 3 Super | 2026-04 | — | — | — | — | — | — | MiMo-V2-Flash | 2026-01 | — | — | — | — | — | — | Step 3.5 Flash | 2026-02 | — | — | — | — | 88.2 | 69.0 | Claude Opus 4.7 | 2026-04 | — | — | — | — | — | — | Claude Opus 4.5 | 2025-11 | ~80 | 57.3 | — | — | — | — | Claude Sonnet 4.6 | 2026-02 | 77 → 82 | — | — | — | — | — | GPT-5 / GPT-5.4 | 2025-08 / 2026-Q1 | — | 57.7 | 98.7 | 39.8 | 72.9 | — | Gemini 3 Pro | 2025-11 | — | 54.2 | 98.2 | 45.0 | 67.1 | — | Llama 4 Maverick | 2025-04 | — | — | — | — | — | — | MiniMax-M2 | 2026-05 | — | — | — | — | — | — | Poolside Laguna M.1 | 2026-05 | — | — | — | — | — | — | 基准释义:SWE-Bench Verified(真实 GitHub 软件工程问题 500 题,越高越好)· SWE-Bench Pro(工业级难度)· AIME 2026(美国数学邀请赛)· HLE = Humanity's Last Exam(学术前沿多学科推理)· τ²-Bench(客服多轮任务)· BrowseComp(网页浏览代理)。"—"表示该模型未正式披露该基准分数,或基准与模型发布时点不重叠。 部分机构的技术披露形式从完整 arXiv 报告逐渐转向 Model Card 或 blog,但也有厂商在旗舰换代时回归完整论文: | 公司 | 演化路径 | 观察时点 | |---|---|---| | Meta | Llama 1–3 完整论文 → Llama 4 仅 Model Card(arXiv v1 已撤稿) | 2025-04 | | Z.ai | GLM-4.5 完整论文 → GLM-4.6 / 4.7 blog → GLM-5 重回 arXiv 技术报告 → GLM-5.1 blog | 2025-09 → 2026-02 | | Mistral | 7B / Mixtral 完整论文 → 旗舰 Large 系列仅 blog;Ministral 3 / Magistral 系列仍发论文 | 持续 | | MiniMax | MiniMax-01 / M1 完整论文 → M2 系列 blog | 2025-10+ | | xAI | Grok-1 开源权重 + Model Card → Grok-2+ 闭源 | 2024-08+ | | Ant Group | Ling 2.0 完整论文 → Ling 2.5 / Ring 2.5 blog | 2026-02 | | Anthropic | 2022-12 Constitutional AI 论文后,Claude 1 → Opus 4.7 全部仅发 System Card(PDF/HTML),从未再在 arXiv 发表完整训练细节 | 持续 | | OpenAI | GPT-3 / InstructGPT 完整论文 → GPT-4 "模糊技术报告" → GPT-4o / o3-mini 仅 System Card → o1 / GPT-5 System Card 上 arXiv(但不含训练细节) | 持续 | 仅列出官方披露的训练成本。绝大多数厂商未公开此数据;下表按报告值原样摘录,不做归一化换算。 | 模型 | 参数 | 训练 tokens | 训练算力 | 公开成本 | 来源 | |---|---|---|---|---|---| DeepSeek-V3 | 671B MoE / 37B A | 14.8T | 2.788M H800 小时 | ≈ $5.58M(按 $2/h 算) | arXiv:2412.19437 | DeepSeek-V4-Pro | 1.6T MoE / 49B A | 32T+ | — | — | HuggingFace 技术报告 | MiniMax-M1 | 456B MoE | — | 512 × H800 × 3 周 | ≈ $534K | arXiv:2506.13585 | Kimi K2 | 1T MoE / 32B A | 15.5T | — | 零 loss spike(MuonClip) | arXiv:2507.20534 | Ling-plus | 290B MoE | — | 非顶级 GPU | 较基线降低 ≈ 20% | arXiv:2503.05139 | NVIDIA Nemotron 3 Super | 120B MoE / 12B A | 25T | — | — | arXiv:2604.12374 | Microsoft MAI-1-preview | 非公开 | — | ~15k H100 | — | | | 公司 | 首次发布 | 技术定位 | |---|---|---| | Ant Group(蚂蚁 / inclusionAI) | 2025-03 | 非顶级 GPU 训 1T 参数;MoE Scaling Laws 方法论 | | Xiaomi(小米 / LLM-Core) | 2025-05 | 小参数高推理;快速迭代 LM → VLM → 大 MoE | | StepFun(阶跃星辰) | 2025-07 | Model-System Co-design;MFA 注意力与 AFD 推理 | | Meituan(美团 / LongCat) | 2025-09 | 4 个月覆盖语言 → 全模态 → 图像 → 推理四方向 | | 公司 | 首次发布 | 技术定位 | |---|---|---| | Poolside(poolside.ai) | 2026-05 | 端到端 Agentic Coding;"Model Factory" 训练基础设施 | | Arcee AI(+ DatologyAI + Prime Intellect) | 2026-02 | Sparse MoE + Sigmoid Routing + SMEBU 负载均衡;零 loss spike | | LG AI Research(韩国) | 2026-04 | EXAONE 4.5 首款韩国开源 VLM;文档理解与韩语推理 | | Kuaishou / KwaiKAT(快手) | 2026-03 | KAT-Coder-V2 Agentic 编码(SWE-bench 79.6%) | 在 30+ 家机构、100+ 个模型中,如何选?以下决策路径基于 公开权重可得性 + 许可证友好度 + 公开基准分数给出建议,仅作参考。 | 场景 | 首选(开源优先) | 闭源替代 | |---|---|---| 通用对话 / 产品接入 | DeepSeek-V4-Pro · Qwen3.5-397B · GLM-5 | Claude Sonnet 4.6 · Gemini 3 Pro · GPT-5 | 长程 Agentic 编码(SWE-Bench Pro) | GLM-5.1(58.4%)· Qwen3.6-27B(53.5%)· DeepSeek-V4-Pro · Poolside Laguna | Claude Opus 4.7 · GPT-5 · Gemini 3 Pro | 数学 / 科学推理(IMO、AIME) | DeepSeek-V3.2-Speciale · Kimi K2.5 · Nemotron-Cascade 2 | GPT-5-thinking · Gemini 3 Pro Deep Think | 长上下文 | DeepSeek-V4(1M)· Llama 4 Scout(10M)· Nemotron 3 Super(1M)· MiniMax-M2(1M) | Gemini 3 Pro(1M+)· Claude Sonnet 4.6(1M beta) | 边缘 / 端侧 | Gemma 3 4B · Ministral 3-3B · MiMo 7B · Olmo 3 7B · Qwen3.5-2B | Apple AFM 端侧 3B | 工具调用 / MCP | Kimi K2.5 · GLM-5 · MiniMax-M2 · LongCat-Flash-Thinking | Claude Opus 4.7 · GPT-5(默认启用工具) | 商用 MoE 性价比 | DeepSeek-V4-Flash(284B / 13B,MIT)· Qwen3.5(Apache-2.0)· GLM-5(MIT) | — | 完全可复现研究 | OLMo 3(数据+代码+检查点全开放) | — | 视觉 + 语言多模态 | Qwen3.5(原生多模态)· Kimi K2.5 · STEP3-VL-10B · LongCat-Flash-Omni | Gemini 3 Pro · Claude Opus 4.7 · GPT-5 | 多语种 / RAG 企业 | Cohere Command A(111B,23 种语言)· Qwen3.5(201 种语言) | Gemini 3 Pro · Claude Opus 4.7 | 中文原生场景 | Qwen3.5 · DeepSeek-V4 · GLM-5 · Kimi K2.5 · ERNIE 4.5-PT | 豆包 1.6 · 混元 · 文心一言 | 图像生成(开源) | LongCat-Image(6B) | Midjourney · Runway | ✅ Apache-2.0 / MIT(最友好) :DeepSeek-V4、Qwen3.5、DeepSeek-V3.2、GLM-5、gpt-oss、Olmo 3、Grok-1、MiMo-V2-Flash、Ministral 3、Ling-1T、LongCat-Flash、Step 3.5 Flash、Arcee Trinity、Poolside Laguna XS.2 ⚠️ 定制开源许可(需阅读条款) :Llama 4(Community License,MAU 限制)、Gemma 3(Gemma Terms)、Kimi K2(Modified MIT)、NVIDIA Nemotron 3 🚫 非商用 / 研究权重 :Cohere Command A(CC-BY-NC 4.0) 🔒 完全闭源 :Claude、Gemini、GPT-5、Grok 2+、Doubao 闭源线、混元 TurboS 需要训练数据 / 代码 / 检查点 → OLMo 3(档位 S) ↓ No 需要完整 arXiv 技术报告 → DeepSeek / Qwen / Moonshot / GLM-5 / Ant / Meituan / Xiaomi / NVIDIA / StepFun / Apple / Baidu(档位 1) ↓ No 接受 blog / Model Card → Meta Llama 4 / OpenAI gpt-oss / MiniMax M2.5 / GLM-5.1(档位 2-3) ↓ No 仅需 API / 闭源 → Claude / Gemini / GPT-5 / Grok 4+ | 路线 | 代表机构 / 模型 | |---|---| 标准 Transformer 稠密 / MoE | Meta · Mistral · Moonshot · Xiaomi · Ant · Meituan · Zhipu · Poolside | 混合线性注意力 + Transformer | Alibaba Qwen3.5/3.6(Gated DeltaNet + Gated Attention)· MiniMax(Lightning Attention)· NVIDIA(Mamba-Transformer,Nemotron-H / 3 / Super)· StepFun(MFA)· Xiaomi(SWA + 全局 5:1)· Ant Group Ring-2.5-1T(混合线性)· AI21 Jamba · Tencent Hunyuan-TurboS | 稀疏 / 压缩注意力 | DeepSeek V4(CSA + HCA)· DeepSeek V3.2(DSA)· Z.ai GLM-5.1(DSA) | Fully-open 学术派 | Allen AI / Ai2(OLMo 1/2/3,含 Dolma 数据集、Tülu 3 后训练) | 小尺寸实用派(≤ 30B) | Google Gemma(2B–27B)· Mistral Ministral(3B–14B)· Xiaomi MiMo(7B)· Allen AI OLMo(7B–32B)· StepFun Step3-VL(10B)· Nemotron 3 Nano(30B / 3B A)· Qwen3.6-27B · Arcee Trinity Nano(6B / 1B A) | 工具 / Agent 原生 | Kimi K2 / K2.5(MuonClip + Agent Swarm)· GLM-4.5 / GLM-5(ARC + 异步 RL)· MiniMax-M2(Forge Agent RL,自我演化)· LongCat-Flash-Thinking · Claude Opus 4.x · Poolside Laguna | 低比特 / 硬件原生训练 | NVIDIA Nemotron 3(NVFP4 + LatentMoE)· DeepSeek-V4(FP4+FP8 混合)· Ant Ling 2.0(FP8 训练)· Apple AFM(2-bit QAT 端侧) | Model-System Co-design | StepFun Step-3(MFA + AFD)· DeepSeek V3/V4(FP8 训练 + DualPipe) | 新型优化器 | Moonshot MuonClip · DeepSeek V4 Muon · Arcee Trinity Muon · Ant Group Ling Scaling Laws | Agentic Coding 专项 | Qwen3-Coder / Qwen3.6 · Poolside Laguna · KAT-Coder-V2(快手)· IQuest-Coder · GLM-5.1 | arXiv :所有论文编号、标题、提交日期均核对自 arXiv.org abstract 页面(逐条访问) HuggingFace :所有模型仓库 URL 均从对应机构官方 HF 组织页面或论文 / 官方博客内链接获取并访问确认 官方博客 / System Card :直接从公司域名(anthropic.com、openai.com、x.ai、z.ai、mistral.ai、microsoft.ai、amazon.science、deepmind.com 等)访问确认 时间列规则 :- 有 arXiv 论文的条目:使用 arXiv v1 提交月份 - 仅 blog / System Card:使用官方发布日期 - 产品发布与 arXiv 提交不一致时(例如 GPT-5 产品 2025-08 / arXiv 2025-12),以括号形式并列标注 排行榜参考 (访问日期 2026-04): - 访问 arXiv 论文: https://arxiv.org/abs/<编号 (文档中所有链接均为可点击) - 访问 HuggingFace 模型:直接点击表格中的仓库链接 - HF Papers 聚合(按 arXiv 编号搜索即可): https://huggingface.co/papers https://huggingface.co/papers - 本文档收录 基础语言模型主线 论文与最重要的 System / Model Card,不含以下内容:- 专项模型(如 Qwen-Math、DeepSeek-Coder、DeepSeek-Prover、MiMo-VL、Qwen3-Coder、GLM-4.6V 等专精分支) - 评估基准论文(如 Tülu、OpenInstruct 等) - 纯应用类论文(如 Step-GUI、Step Deep Research、Project Mariner 等) - 语音 / 图像 / 视频独立生成模型的完整历代(仅选代表作,如 LongCat-Image、Qwen3.5-Omni) Part B 尚未覆盖:Midjourney、Runway、Stability AI、Suno、11Labs、Perplexity 等以非 LLM 或以产品为核心的 AI 公司- 非公开技术文档的闭源模型(如部分政府 / 特定行业模型)不在收录范围 2026-05-28 :大规模补充 2026-02 至 2026-05 新发布模型。新增:DeepSeek-V4(1.6T MoE)、Qwen3.5 / Qwen3.6 / Qwen3-Coder(混合 GDN+GA 架构)、MiniMax-M2(arXiv:2605.26494)、NVIDIA Nemotron 3 Super / Cascade 2 / Nano Omni、Poolside Laguna、Arcee Trinity、LG EXAONE 4.5、KAT-Coder-V2(快手)。总览表从 16 家扩至 19 家,arXiv 速查表新增 13 条,发布时间线延伸至 2026-05,选型指南与基准速览全面更新。 2026-04-21 :完成全量 arXiv 编号与 HuggingFace 链接的二次核对;新增 Claude Opus 4.6 / 4.7 条目;补充 GPT-5 System Card 的 arXiv 提交日期与产品发布日期的错位说明;修正 Step-3 论文标题大小写;完善"数据来源与核对方法"的时间列规则;Anthropic / OpenAI 透明度演化观察新增两行。 如发现链接失效、arXiv 编号错误、遗漏新发布模型,或希望扩充 License 列 / GitHub 列,请在对应表格 PR 中注明: - 机构 & 系列 - arXiv 编号(若有)或官方 blog URL - HuggingFace 仓库(若有) - 核心技术贡献(≤ 1 句) - 核对日期 按 arXiv ID 升序,便于交叉检索。仅收录 Part A + Part B 正文表格内 arXiv 论文。 | arXiv ID | 标题简写 | 机构 | 时间 | |---|---|---|---| | 2005.14165 | GPT-3(Few-Shot Learners) | OpenAI | 2020-05 | | 2103.10360 | GLM | Zhipu / THUDM | 2021-03 | | 2203.02155 | InstructGPT | OpenAI | 2022-03 | | 2210.02414 | GLM-130B | Zhipu | 2022-10 | | 2212.08073 | Constitutional AI | Anthropic | 2022-12 | | 2302.13971 | LLaMA 1 | Meta | 2023-02 | | 2303.08774 | GPT-4 Technical Report | OpenAI | 2023-03 | | 2307.09288 | Llama 2 | Meta | 2023-07 | | 2309.16609 | Qwen | Alibaba | 2023-09 | | 2310.06825 | Mistral 7B | Mistral | 2023-10 | | 2312.11805 | Gemini 1.0 | 2023-12 | | | 2401.02954 | DeepSeek LLM | DeepSeek | 2024-01 | | 2401.04088 | Mixtral of Experts | Mistral | 2024-01 | | 2402.00838 | OLMo 1 | Ai2 | 2024-02 | | 2402.16819 | Nemotron-4 15B | NVIDIA | 2024-02 | | 2403.05530 | Gemini 1.5 | 2024-03 | | | 2403.08295 | Gemma 1 | 2024-03 | | | 2403.19887 | Jamba | AI21 Labs | 2024-03 | | 2404.12387 | Reka Core / Flash / Edge | Reka AI | 2024-04 | | 2405.04434 | DeepSeek-V2(MLA) | DeepSeek | 2024-05 | | 2406.11704 | Nemotron-4 340B | NVIDIA | 2024-06 | | 2406.12793 | ChatGLM | Zhipu | 2024-06 | | 2407.10671 | Qwen2 | Alibaba | 2024-07 | | 2407.21075 | Apple AFM 2024 | Apple | 2024-07 | | 2407.21783 | The Llama 3 Herd | Meta | 2024-07 | | 2408.00118 | Gemma 2 | 2024-07 | | | 2411.02265 | Hunyuan-Large | Tencent | 2024-11 | | 2412.15115 | Qwen2.5 | Alibaba | 2024-12 | | 2412.16720 | OpenAI o1 System Card | OpenAI | 2024-12 | | 2412.19437 | DeepSeek-V3 | DeepSeek | 2024-12 | | 2501.00656 | OLMo 2 | Ai2 | 2025-01 | | 2501.08313 | MiniMax-01(Lightning Attn) | MiniMax | 2025-01 | | 2501.12599 | Kimi k1.5 | Moonshot | 2025-01 | | 2501.12948 | DeepSeek-R1 (Nature 645) | DeepSeek | 2025-01 | | 2503.05139 | Ling(Every FLOP Counts) | Ant Group | 2025-03 | | 2503.19786 | Gemma 3 | 2025-03 | | | 2504.00698 | Command A | Cohere | 2025-04 | | 2504.03624 | Nemotron-H | NVIDIA | 2025-04 | | 2504.07158 | Ring-lite(Compact Reasoning) | Ant Group | 2025-04 | | 2504.13914 | Seed-Thinking v1.5 | ByteDance | 2025-04 | | 2505.00949 | Llama-Nemotron | NVIDIA | 2025-05 | | 2505.04519 | Pangu Ultra MoE | Huawei | 2025-05 | | 2505.07608 | MiMo(Xiaomi 首款) | Xiaomi | 2025-05 | | 2505.09388 | Qwen3 | Alibaba | 2025-05 | | 2505.15431 | Hunyuan-TurboS | Tencent | 2025-05 | | 2506.03569 | MiMo-VL | Xiaomi | 2025-06 | | 2506.10910 | Magistral | Mistral | 2025-06 | | 2506.12103 | Amazon Nova(arXiv 版) | Amazon | 2025-06 | | 2506.13585 | MiniMax-M1 | MiniMax | 2025-06 | | 2507.06261 | Gemini 2.5 | 2025-07 | | | 2507.07145 | ERNIE 4.5 | Baidu | 2025-07 | | 2507.13575 | Apple AFM 2025(PT-MoE) | Apple | 2025-07 | | 2507.17702 | Ling Scaling Laws | Ant Group | 2025-07 | | 2507.19427 | Step-3 | StepFun | 2025-07 | | 2507.20534 | Kimi K2 | Moonshot | 2025-07 | | 2508.06471 | GLM-4.5(ARC) | Z.ai | 2025-08 | | 2508.10925 | gpt-oss-120b / 20b Card | OpenAI | 2025-08 | | 2509.01322 | LongCat-Flash | Meituan | 2025-09 | | 2510.22115 | Ling-1T / Ling 2.0 | Ant Group | 2025-10 | | 2511.00279 | LongCat-Flash-Omni | Meituan | 2025-11 | | 2512.02556 | DeepSeek-V3.2(DSA) | DeepSeek | 2025-12 | | 2512.07584 | LongCat-Image | Meituan | 2025-12 | | 2512.13961 | Olmo 3 | Ai2 | 2025-12 | | 2512.20856 | Nemotron 3 | NVIDIA | 2025-12 | | 2601.02780 | MiMo-V2-Flash | Xiaomi | 2026-01 | | 2601.03267 | GPT-5 System Card | OpenAI | 2026-01(产品 2025-08) | | 2601.08584 | Ministral 3 | Mistral | 2026-01 | | 2601.09668 | STEP3-VL-10B | StepFun | 2026-01 | | 2601.16725 | LongCat-Flash-Thinking-2601 | Meituan | 2026-01 | | 2601.19134 | Nova 2.0 Lite 安全评估 | Amazon | 2026-01 | | 2602.02276 | Kimi K2.5 | Moonshot | 2026-02 | | 2602.04705 | ERNIE 5.0 | Baidu | 2026-02 | | 2602.10604 | Step 3.5 Flash | StepFun | 2026-02 | | 2602.15763 | GLM-5 | Z.ai | 2026-02 | | 2602.17004 | Arcee Trinity | Arcee AI | 2026-02 | | 2603.00729 | Qwen3-Coder-Next | Alibaba | 2026-02 | | 2603.19220 | Nemotron-Cascade 2 | NVIDIA | 2026-03 | | 2603.27703 | KAT-Coder-V2 | Kuaishou | 2026-03 | | 2604.08644 | EXAONE 4.5 | LG AI Research | 2026-04 | | 2604.12374 | Nemotron 3 Super | NVIDIA | 2026-04 | | 2604.24954 | Nemotron 3 Nano Omni | NVIDIA | 2026-04 | | 2605.26494 | MiniMax-M2 | MiniMax | 2026-05 | | 2605.27605 | Laguna M.1 / XS.2 | Poolside | 2026-05 |