# LLM Technical Reports Landscape (2021–2026): 27 orgs × 70+ arXiv papers, with HuggingFace / GitHub / License / context / benchmarks. Open-weight + closed-API, fully cross-referenced.

> Source: <https://gist.github.com/Smith-xuan/894b8de64bf953dd78dfcf1495cf7bd3>
> Published: 2026-05-28 04:49:31+00:00

| 术语 | 定义 |
|---|---|
Open-weight（权重开源） |
模型权重公开可下载、允许研究与商用，但训练数据 / 代码通常保留 |
Fully-open（完全开源） |
除权重外，训练数据、训练代码、训练日志、中间检查点全部公开（典型代表：OLMo） |
Closed / API-first（闭源） |
权重不公开，仅通过 API / 产品提供，典型代表：OpenAI GPT 旗舰 / Anthropic Claude / Google Gemini 旗舰 |
Hybrid（混合路线） |
小尺寸 / 上一代权重开源、最新旗舰闭源（典型代表：Baidu ERNIE、Tencent Hunyuan、Cohere Command） |
Technical Report |
正式发表于 arXiv / 会议 / 期刊的完整技术文档，含架构、数据、训练、评估细节 |
Model Card / System Card |
仅包含模型说明、基本参数、评测与安全信息的简化文档，不包含完整训练细节 |

| # | 公司 | 系列 | 论文数 | 首篇 | 最新 | 透明度档位 |
|---|---|---|---|---|---|---|
| 1 | 🇺🇸 Meta |
Llama | 3 + 1 Card | 2023-02 | 2025-04 | 档位 3 |
| 2 | 🇺🇸 Google DeepMind |
Gemma | 3 | 2024-03 | 2025-03 | 档位 1 |
| 3 | 🇨🇳 Alibaba |
Qwen | 4 + blog | 2023-09 | 2026-04 | 档位 2 |
| 4 | 🇫🇷 Mistral AI |
Mistral / Mixtral / Magistral / Ministral | 4 | 2023-10 | 2026-01 | 档位 2 |
| 5 | 🇨🇳 DeepSeek |
DeepSeek LLM / V2 / V3 / R1 / V3.2 / V4 | 6 | 2024-01 | 2026-04 | 档位 1 |
| 6 | 🇨🇳 Zhipu AI / Z.ai |
GLM / ChatGLM / GLM-4.5 / GLM-5 | 5 | 2021-03 | 2026-02 | 档位 1 |
| 7 | 🇨🇳 Moonshot AI |
Kimi k1.5 / K2 / K2.5 | 3 | 2025-01 | 2026-02 | 档位 1 |
| 8 | 🇨🇳 MiniMax |
MiniMax-01 / M1 / M2 | 3 | 2025-01 | 2026-05 | 档位 1 |
| 9 | 🇨🇳 Xiaomi |
MiMo / MiMo-VL / MiMo-V2-Flash | 3 | 2025-05 | 2026-01 | 档位 1 |
| 10 | 🇺🇸 OpenAI |
gpt-oss-120b / 20b | 1 Card | 2025-08 | 2025-08 | 档位 3 |
| 11 | 🇨🇳 Ant Group (蚂蚁) |
Ling / Ring / Ling 2.0 / Ling 2.5 | 4 | 2025-03 | 2025-10 | 档位 1 |
| 12 | 🇨🇳 Meituan (美团) |
LongCat Flash / Omni / Image / Thinking | 4 | 2025-09 | 2026-01 | 档位 1 |
| 13 | 🇺🇸 NVIDIA |
Nemotron-4 / Nemotron-H / Llama-Nemotron / Nemotron 3 | 7 | 2024-02 | 2026-04 | 档位 1 |
| 14 | 🇺🇸 xAI |
Grok-1 | 0 (仅 Card) | 2024-03 | 2024-03 | 档位 4 |
| 15 | 🇺🇸 Allen AI / Ai2 |
OLMo / OLMo 2 / OLMo 3 | 3 | 2024-02 | 2025-12 | 档位 S |
| 16 | 🇨🇳 StepFun (阶跃星辰) |
Step-3 / Step3-VL / Step 3.5 Flash | 3 | 2025-07 | 2026-02 | 档位 1 |
| 17 | 🇺🇸 Poolside |
Laguna | 1 | 2026-05 | 2026-05 | 档位 1 |
| 18 | 🇺🇸 Arcee AI |
Trinity | 1 | 2026-02 | 2026-02 | 档位 1 |
| 19 | 🇰🇷 LG AI Research |
EXAONE | 1 | 2026-04 | 2026-04 | 档位 1 |

**透明度档位说明**：

**档位 S**：Fully-open（含训练数据、代码、日志）**档位 1**：Open-weight + 每代完整 arXiv 技术报告**档位 2**：基础系列有论文，近期旗舰转为 blog 形式**档位 3**：仅 Model Card 或 blog，无完整技术报告**档位 4**：无正式论文

每家机构最具代表性的

当前旗舰权重。参数列格式：`总参数 (T) / 激活 (A)`

；稠密模型只列单个数字。Ctx 为官方声明的最大上下文长度。

| # | 机构 | 当前旗舰 | 架构 | 参数 (T/A) | Ctx | License | GitHub | HuggingFace |
|---|---|---|---|---|---|---|---|---|
| 1 | Meta | Llama 4 Maverick | MoE × 128E | 400B / 17B | 1M | Llama 4 Community |
|

[Maverick-17B-128E](https://huggingface.co/meta-llama/Llama-4-Maverick-17B-128E)**10M**[Scout-17B-16E](https://huggingface.co/meta-llama/Llama-4-Scout-17B-16E)[gemma](https://github.com/google-deepmind/gemma)[gemma-3-27b-it](https://huggingface.co/google/gemma-3-27b-it)[Qwen3.6](https://github.com/QwenLM/Qwen3.6)[Qwen3.5-397B-A17B](https://huggingface.co/Qwen/Qwen3.5-397B-A17B)[Qwen3.6-27B](https://huggingface.co/Qwen/Qwen3.6-27B)[mistral-inference](https://github.com/mistralai/mistral-inference)[Ministral-3 Collection](https://huggingface.co/collections/mistralai/ministral-3)**CSA+HCA**+ mHC** 1M**[DeepSeek-V4](https://github.com/deepseek-ai/DeepSeek-V4)[DeepSeek-V4-Pro](https://huggingface.co/deepseek-ai/DeepSeek-V4-Pro)**1M**[DeepSeek-V4-Flash](https://huggingface.co/deepseek-ai/DeepSeek-V4-Flash)[GLM-5](https://github.com/zai-org/GLM-5)[GLM-5](https://huggingface.co/collections/zai-org/glm-5)**DSA**[GLM-5.1](https://huggingface.co/zai-org/GLM-5.1)[Kimi-K2](https://github.com/MoonshotAI/Kimi-K2)[Kimi-K2.5](https://huggingface.co/moonshotai/Kimi-K2.5)[MiniMax-M1](https://github.com/MiniMax-AI/MiniMax-M1)[MiniMax-M2](https://huggingface.co/MiniMaxAI/MiniMax-M2)[MiMo](https://github.com/XiaomiMiMo/MiMo)[MiMo-V2-Flash](https://huggingface.co/XiaomiMiMo/MiMo-V2-Flash)[gpt-oss](https://github.com/openai/gpt-oss)[gpt-oss-120b](https://huggingface.co/openai/gpt-oss-120b)[Ling](https://github.com/inclusionAI/Ling-V2)[Ling-1T](https://huggingface.co/inclusionAI/Ling-1T)[LongCat-Flash](https://github.com/meituan-longcat/LongCat-Flash)[LongCat-Flash-Thinking-2601](https://huggingface.co/meituan-longcat/LongCat-Flash-Thinking-2601)**NVFP4**+ MTP** 1M**[NeMo](https://github.com/NVIDIA/NeMo)[Nemotron-3-Super](https://huggingface.co/nvidia/Nemotron-3-Super-120B-A12B)[grok-1](https://github.com/xai-org/grok-1)[grok-1](https://huggingface.co/xai-org/grok-1)[OLMo](https://github.com/allenai/OLMo)[Olmo-3-32B-Think](https://huggingface.co/allenai/Olmo-3-32B-Think)[Step3](https://github.com/stepfun-ai/Step3)[Step-3.5-Flash](https://huggingface.co/stepfun-ai/Step-3.5-Flash)[Laguna-XS.2](https://huggingface.co/poolside/Laguna-XS.2)[Arcee-Trinity-Large](https://huggingface.co/arcee-ai/Arcee-Trinity-Large)

License 速查：

Apache-2.0 / MIT：商用最友好，无字段限制Llama 4 Community / Gemma Terms：商用前请阅读条款（MAU 7 亿门槛、安全使用条款等）Modified MIT（Kimi K2）：基本同 MIT，额外要求 "Kimi K2" 在界面可见MiniMax M Use：MiniMax 自有商业许可，个人研究与商用分级NVIDIA Open Model License：允许商用，要求安全使用与合规披露

Llama 1–3 公开完整训练细节，是开源生态早期基石；Llama 4 起转为仅发 Model Card。

| 时间 | 论文 | HuggingFace | 关键贡献 |
|---|---|---|---|
| 2023-02 |
|

*(首发需申请，非官方转载存在)*[Llama 2: Open Foundation and Fine-Tuned Chat Models (arXiv:2307.09288)](https://arxiv.org/abs/2307.09288)[meta-llama/Llama-2-70b-hf](https://huggingface.co/meta-llama/Llama-2-70b-hf)[The Llama 3 Herd of Models (arXiv:2407.21783)](https://arxiv.org/abs/2407.21783)[meta-llama/Llama-3.1-405B](https://huggingface.co/meta-llama/Llama-3.1-405B)[Llama 4 Model Card（arXiv v1 已撤稿）](https://github.com/meta-llama/llama-models/blob/main/models/llama4/MODEL_CARD.md)[meta-llama/Llama-4-Maverick-17B-128E](https://huggingface.co/meta-llama/Llama-4-Maverick-17B-128E)·[meta-llama/Llama-4-Scout-17B-16E](https://huggingface.co/meta-llama/Llama-4-Scout-17B-16E)将 Gemini 研究成果下沉到轻量级开源模型，专注 2B–27B 消费级部署场景。

| 时间 | 论文 | HuggingFace | 关键贡献 |
|---|---|---|---|
| 2024-03 |
|

[google/gemma-7b](https://huggingface.co/google/gemma-7b)[Gemma 2: Improving Open Language Models at a Practical Size (arXiv:2408.00118)](https://arxiv.org/abs/2408.00118)[google/gemma-2-27b](https://huggingface.co/google/gemma-2-27b)[Gemma 3 Technical Report (arXiv:2503.19786)](https://arxiv.org/abs/2503.19786)[google/gemma-3-27b-it](https://huggingface.co/google/gemma-3-27b-it)中国开源模型中发表最密集的谱系之一，规模覆盖 0.5B 至 235B MoE。

| 时间 | 论文 | HuggingFace | 关键贡献 |
|---|---|---|---|
| 2023-09 |
|

[Qwen/Qwen-72B](https://huggingface.co/Qwen/Qwen-72B)[Qwen2 Technical Report (arXiv:2407.10671)](https://arxiv.org/abs/2407.10671)[Qwen/Qwen2-72B](https://huggingface.co/Qwen/Qwen2-72B)[Qwen2.5 Technical Report (arXiv:2412.15115)](https://arxiv.org/abs/2412.15115)[Qwen/Qwen2.5-72B-Instruct](https://huggingface.co/Qwen/Qwen2.5-72B-Instruct)[Qwen3 Technical Report (arXiv:2505.09388)](https://arxiv.org/abs/2505.09388)[Qwen/Qwen3-235B-A22B](https://huggingface.co/Qwen/Qwen3-235B-A22B)[Qwen3-Coder（blog）](https://qwenlm.github.io/blog/qwen3-coder/)[Qwen/Qwen3-Coder-480B-A35B-Instruct](https://huggingface.co/Qwen/Qwen3-Coder-480B-A35B-Instruct)[Qwen3.5（blog）](https://qwen.ai/blog?id=qwen3.5)[Qwen/Qwen3.5-397B-A17B](https://huggingface.co/Qwen/Qwen3.5-397B-A17B)**混合 Gated DeltaNet + Gated Attention 架构**；原生多模态早期融合；397B / 17B 旗舰，覆盖 0.8B–397B 8 个尺寸；1M 上下文；201 种语言[Qwen3.6（blog）](https://qwen.ai/blog?id=qwen3.6-27b)[Qwen/Qwen3.6-27B](https://huggingface.co/Qwen/Qwen3.6-27B)·[Qwen/Qwen3.6-35B-A3B](https://huggingface.co/Qwen/Qwen3.6-35B-A3B)欧洲开源主力，擅长 MoE 与小参数高效架构。旗舰 Large 系列仅 blog 发布，子系列保留完整论文。

| 时间 | 论文 | HuggingFace | 关键贡献 |
|---|---|---|---|
| 2023-10 |
|

[mistralai/Mistral-7B-v0.1](https://huggingface.co/mistralai/Mistral-7B-v0.1)[Mixtral of Experts (arXiv:2401.04088)](https://arxiv.org/abs/2401.04088)[mistralai/Mixtral-8x7B-v0.1](https://huggingface.co/mistralai/Mixtral-8x7B-v0.1)[Mistral Large 2（blog）](https://mistral.ai/news/mistral-large-2407)[mistralai/Mistral-Large-Instruct-2407](https://huggingface.co/mistralai/Mistral-Large-Instruct-2407)[Magistral (arXiv:2506.10910)](https://arxiv.org/abs/2506.10910)[mistralai/Magistral-Small-2506](https://huggingface.co/mistralai/Magistral-Small-2506)[Ministral 3 (arXiv:2601.08584)](https://arxiv.org/abs/2601.08584)[mistralai/Ministral-3 Collection](https://huggingface.co/collections/mistralai/ministral-3)开源权重阵营中发表最密集的团队之一，每代均附完整技术报告；R1 论文发表于 Nature。

中国最早公开发布大语言模型论文的机构之一（2021 年起）。GLM-4.5 之后 GLM-4.6 / 4.7 仅以 blog 发布；2026-02 GLM-5 回归 arXiv 完整技术报告。

| 时间 | 论文 | HuggingFace | 关键贡献 |
|---|---|---|---|
| 2021-03 |
· ACL 2022 |

[THUDM/glm-10b](https://huggingface.co/THUDM/glm-10b)[GLM-130B: An Open Bilingual Pre-trained Model (arXiv:2210.02414)](https://arxiv.org/abs/2210.02414)*· ICLR 2023**(权重通过*[GitHub](https://github.com/THUDM/GLM-130B)申请下载)[ChatGLM: A Family of LMs from GLM-130B to GLM-4 All Tools (arXiv:2406.12793)](https://arxiv.org/abs/2406.12793)[THUDM/chatglm3-6b](https://huggingface.co/THUDM/chatglm3-6b)·[zai-org/glm-4-9b-chat](https://huggingface.co/zai-org/glm-4-9b-chat)[GLM-4.5: Agentic, Reasoning, and Coding (ARC) Foundation Models (arXiv:2508.06471)](https://arxiv.org/abs/2508.06471)[zai-org/GLM-4.5](https://huggingface.co/zai-org/GLM-4.5)[GLM-4.6 / 4.7（blog）](https://z.ai/blog/glm-4.6)[zai-org/GLM-4.6](https://huggingface.co/zai-org/GLM-4.6)[GLM-5: from Vibe Coding to Agentic Engineering (arXiv:2602.15763)](https://arxiv.org/abs/2602.15763)[zai-org/GLM-5](https://huggingface.co/collections/zai-org/glm-5)[GLM-5.1（blog）](https://z.ai/blog/glm-5.1)2025 年起快速迭代，在优化器、Agent 等方向有独立技术贡献。k1.5 权重未公开，K2 / K2.5 开源。

| 时间 | 论文 | HuggingFace | 关键贡献 |
|---|---|---|---|
| 2025-01 |
|

*(*[GitHub](https://github.com/MoonshotAI/Kimi-k1.5)仅发 paper)[Kimi K2: Open Agentic Intelligence (arXiv:2507.20534)](https://arxiv.org/abs/2507.20534)[moonshotai/Kimi-K2-Instruct](https://huggingface.co/moonshotai/Kimi-K2-Instruct)**MuonClip**优化器；1T MoE / 32B 激活，15.5T tokens 零损失尖峰[Kimi K2.5: Visual Agentic Intelligence (arXiv:2602.02276)](https://arxiv.org/abs/2602.02276)[moonshotai/Kimi-K2.5](https://huggingface.co/moonshotai/Kimi-K2.5)线性 / 混合注意力架构的实践者；MiniMax-01 / M1 有完整论文，M2 系列转为 blog。

| 时间 | 论文 | HuggingFace | 关键贡献 |
|---|---|---|---|
| 2025-01 |
|

[MiniMaxAI/MiniMax-Text-01](https://huggingface.co/MiniMaxAI/MiniMax-Text-01)**首个商业级线性注意力**（Lightning Attention）；456B MoE，4M context[MiniMax-M1: Scaling Test-Time Compute Efficiently (arXiv:2506.13585)](https://arxiv.org/abs/2506.13585)[MiniMaxAI/MiniMax-M1-80k](https://huggingface.co/MiniMaxAI/MiniMax-M1-80k)**CISPO** RL 算法；1M context，512 张 H800 三周完成 RL（成本约 $534K）[MiniMax M2 / M2.1 / M2.5（blog）](https://www.minimax.io/news/minimax-m25)[MiniMaxAI/MiniMax-M2.5](https://huggingface.co/MiniMaxAI/MiniMax-M2.5)[MiniMax-M2 Technical Report (arXiv:2605.26494)](https://arxiv.org/abs/2605.26494)[MiniMaxAI/MiniMax-M2](https://huggingface.co/MiniMaxAI/MiniMax-M2)**Forge**可扩展 Agent 原生 RL 系统；M2.7 支持自我演化（自主调试训练并修改自身 scaffold）小米 LLM-Core 团队，聚焦小参数高推理与效率；论文节奏稳定，每代都开源权重。

| 时间 | 论文 | HuggingFace | 关键贡献 |
|---|---|---|---|
| 2025-05 |
|

[XiaomiMiMo/MiMo-7B-RL](https://huggingface.co/XiaomiMiMo/MiMo-7B-RL)[MiMo-VL Technical Report (arXiv:2506.03569)](https://arxiv.org/abs/2506.03569)[XiaomiMiMo/MiMo-VL-7B-RL](https://huggingface.co/XiaomiMiMo/MiMo-VL-7B-RL)[MiMo-V2-Flash Technical Report (arXiv:2601.02780)](https://arxiv.org/abs/2601.02780)[XiaomiMiMo/MiMo-V2-Flash](https://huggingface.co/XiaomiMiMo/MiMo-V2-Flash)OpenAI 自 GPT-2 之后首次开源模型权重。文档形式为 Model Card，非完整技术报告。

| 时间 | 论文 | HuggingFace | 关键贡献 |
|---|---|---|---|
| 2025-08 | ⚠️
|

[openai/gpt-oss-120b](https://huggingface.co/openai/gpt-oss-120b)·[openai/gpt-oss-20b](https://huggingface.co/openai/gpt-oss-20b)

说明：OpenAI 历史上 GPT-1/2/3/4 论文均非权重开源；自 GPT-2 起直至 gpt-oss 均为闭源。

蚂蚁集团 AGI 研究品牌为

inclusionAI；Ring 是在 Ling 基础模型上构建的推理分支。

| 时间 | 论文 | HuggingFace | 关键贡献 |
|---|---|---|---|
| 2025-03 |
|

[inclusionAI/Ling-plus](https://huggingface.co/inclusionAI/Ling-plus)·[inclusionAI/Ling-lite](https://huggingface.co/inclusionAI/Ling-lite)[Holistic Capability Preservation: Compact Reasoning Models (arXiv:2504.07158)](https://arxiv.org/abs/2504.07158)[inclusionAI/Ring-lite-distill](https://huggingface.co/inclusionAI/Ring-lite-distill)[Towards Greater Leverage: Scaling Laws for Efficient MoE LMs (arXiv:2507.17702)](https://arxiv.org/abs/2507.17702)*(方法论论文)***Ling Scaling Laws**：MoE 专用缩放定律研究[Every Activation Boosted: Scaling General Reasoner to 1 Trillion Open Language Foundation (arXiv:2510.22115)](https://arxiv.org/abs/2510.22115)[inclusionAI/Ling-1T](https://huggingface.co/inclusionAI/Ling-1T)·[inclusionAI/Ling-flash-2.0](https://huggingface.co/inclusionAI/Ling-flash-2.0)·[inclusionAI/Ling-mini-2.0](https://huggingface.co/inclusionAI/Ling-mini-2.0)**Ling 2.0 技术报告**：Ling-1T 为当前最大规模完全开源推理基座；1/32 稀疏度 + FP8 训练[Ling-2.5-1T / Ring-2.5-1T（blog）](https://www.antgroup.com/en/news-media/press-releases/2026-02-16)[inclusionAI/Ling-2.5-1T](https://huggingface.co/collections/inclusionAI/ling-25)美团 LongCat 团队自 2025-09 起 4 个月内发布 4 篇 arXiv，覆盖语言、全模态、图像、推理四个方向。

| 时间 | 论文 | HuggingFace | 关键贡献 |
|---|---|---|---|
| 2025-09 |
|

[meituan-longcat/LongCat-Flash-Chat](https://huggingface.co/meituan-longcat/LongCat-Flash-Chat)**Zero-Computation Experts**动态激活（18.6B–31.3B）[LongCat-Flash-Omni Technical Report (arXiv:2511.00279)](https://arxiv.org/abs/2511.00279)[meituan-longcat/LongCat-Flash-Omni](https://huggingface.co/meituan-longcat/LongCat-Flash-Omni)[LongCat-Image Technical Report (arXiv:2512.07584)](https://arxiv.org/abs/2512.07584)[meituan-longcat/LongCat-Image](https://huggingface.co/meituan-longcat/LongCat-Image)[LongCat-Flash-Thinking-2601 Technical Report (arXiv:2601.16725)](https://arxiv.org/abs/2601.16725)[meituan-longcat/LongCat-Flash-Thinking-2601](https://huggingface.co/meituan-longcat/LongCat-Flash-Thinking-2601)硬件厂商自研开源路线，强调硬件-算法协同设计（FP8 训练、Mamba 混合、合成数据）。

仅 Grok-1（314B MoE）于 2024-03 公开权重，之后 Grok-2/3/4 全部转为闭源 API。

| 时间 | 论文 | HuggingFace | 关键贡献 |
|---|---|---|---|
| 2024-03 | ❌
|

[xai-org/grok-1](https://huggingface.co/xai-org/grok-1)

说明：Grok-1 是单次开源事件；Grok-2 起 xAI 转向闭源 API 路线。

Fully-open 路线代表：除权重外，同步开源完整训练数据（Dolma）、代码、训练日志、中间检查点。

| 时间 | 论文 | HuggingFace | 关键贡献 |
|---|---|---|---|
| 2024-02 |
|

[allenai/OLMo-7B](https://huggingface.co/allenai/OLMo-7B)[2 OLMo 2 Furious (arXiv:2501.00656)](https://arxiv.org/abs/2501.00656)[allenai/OLMo-2-0325-32B-Instruct](https://huggingface.co/allenai/OLMo-2-0325-32B-Instruct)[Olmo 3 (arXiv:2512.13961)](https://arxiv.org/abs/2512.13961)*· Ai2*[博客首发 2025-11-20](https://allenai.org/blog/olmo3)[allenai/Olmo-3-32B-Think](https://huggingface.co/allenai/Olmo-3-32B-Think)·[allenai/Olmo-3-7B-Instruct](https://huggingface.co/allenai/Olmo-3-7B-Instruct)**当前最强 fully-open 推理模型**（32B Think）；完整 model flow：Dolma 3（9.3T tokens）+ 全部中间检查点

说明：Ai2（Allen Institute for AI）是由 Paul Allen 创立的非营利研究机构，OLMo 是学术透明度的代表性项目。

聚焦 Model-System Co-design（模型-系统协同设计），每篇论文都强调硬件感知的架构选择与推理成本。

| 时间 | 论文 | HuggingFace | 关键贡献 |
|---|---|---|---|
| 2025-07 |
|

[stepfun-ai/step3](https://huggingface.co/stepfun-ai/step3)**MFA**（Multi-Matrix Factorization Attention）+** AFD**（Attention-FFN Disaggregation）推理架构[STEP3-VL-10B Technical Report (arXiv:2601.09668)](https://arxiv.org/abs/2601.09668)[stepfun-ai/Step3-VL-10B](https://huggingface.co/stepfun-ai/Step3-VL-10B)**PaCoRe**（Parallel Coordinated Reasoning）并行推理[Step 3.5 Flash: Open Frontier-Level Intelligence with 11B Active Parameters (arXiv:2602.10604)](https://arxiv.org/abs/2602.10604)[stepfun-ai/Step-3.5-Flash](https://huggingface.co/stepfun-ai/Step-3.5-Flash)

说明：StepFun 另有 Step-GUI、Step Deep Research 等多个专项论文，本表仅列出基础语言模型主线。

2026 年新入场的 AI 编码公司，聚焦长程 Agentic Coding，端到端在 "Model Factory" 基础设施中训练。

| 时间 | 论文 | HuggingFace | 关键贡献 |
|---|---|---|---|
| 2026-05 |
|

[poolside/Laguna-XS.2](https://huggingface.co/poolside/Laguna-XS.2)与 DatologyAI、Prime Intellect 合作训练，强调 Sparse MoE 训练稳定性。

| 时间 | 论文 | HuggingFace | 关键贡献 |
|---|---|---|---|
| 2026-02 |
|

[arcee-ai/Arcee-Trinity-Large](https://huggingface.co/arcee-ai/Arcee-Trinity-Large)**SMEBU**负载均衡；Muon 优化器；10–17T tokens 训练零 loss spike韩国 LG 集团 AI 研究院，EXAONE 4.5 为首款开源视觉语言模型。

| 时间 | 论文 | HuggingFace | 关键贡献 |
|---|---|---|---|
| 2026-04 |
|

以下公司的旗舰模型以闭源 API 为主，但仍多发布较完整的技术报告或 System Card。其中 Apple / Amazon / Cohere / ByteDance / Baidu / Tencent 属于"混合路线"——小尺寸或上一代权重部分公开，旗舰闭源。

| # | 公司 | 系列 | 论文/卡片数 | 首篇 | 最新 | 透明度档位 |
|---|---|---|---|---|---|---|
| B1 | 🇺🇸 OpenAI（旗舰闭源） |
GPT-3 / GPT-4 / GPT-4o / o1 / GPT-5 | 5 (含 2 System Card) | 2020-05 | 2026-01 | 档位 2 |
| B2 | 🇺🇸 Anthropic |
Claude 1 → Claude Opus 4.7 | 1 论文 + 多份 System Card | 2022-12 | 2026-04 | 档位 3 |
| B3 | 🇺🇸 Google DeepMind（Gemini 闭源线） |
Gemini 1 / 1.5 / 2.5 / 3 | 3 + 1 Model Card | 2023-12 | 2025-11 | 档位 1 |
| B4 | 🇺🇸 xAI（Grok-2+ 闭源线） |
Grok-2 / 3 / 4 / 4.1 / 4 Fast | 0 + 多份 Model Card | 2024-08 | 2025-11 | 档位 3 |
| B5 | 🇺🇸 Apple |
AFM 2024 / AFM 2025 | 2 | 2024-07 | 2025-07 | 档位 1（含端侧开源） |
| B6 | 🇺🇸 Amazon |
Amazon Nova / Nova Premier / Nova 2.0 | 3 | 2024-12 | 2026-01 | 档位 2 |
| B7 | 🇨🇦 Cohere |
Command R / R+ / A / A Reasoning | 1 + blog | 2024-07 | 2025-04 | 档位 1（研究权重 CC-BY-NC） |
| B8 | 🇨🇳 ByteDance Seed（豆包 / Doubao） |
Seed-Thinking-v1.5 / Doubao 1.5 / 1.6 | 1 + blog | 2025-04 | 2025-10 | 档位 2 |
| B9 | 🇨🇳 Baidu 文心（百度 ERNIE） |
ERNIE 4.5 / ERNIE 5.0 | 2 | 2025-07 | 2026-02 | 档位 1（含部分开源） |
| B10 | 🇨🇳 Tencent 混元（腾讯 Hunyuan） |
Hunyuan-Large / TurboS | 2 | 2024-11 | 2025-05 | 档位 1（含部分开源） |
| B11 | 🇺🇸 Microsoft AI（MAI） |
MAI-1-preview / MAI-Voice-1 | 0（仅 blog） | 2025-08 | 2025-08 | 档位 3 |

更小众 / 已被收购的公司（Reka AI、Inflection AI、AI21 Labs）见"📎 其他值得关注"。

闭源 / 混合路线旗舰的访问方式与当前（2026-04）对外报价。价格列为 USD / 1M tokens（输入 / 输出），缓存折扣不纳入。

| # | 机构 | 当前旗舰 | 架构 | 参数 | Ctx | License / 权重 | 访问 | 价格（I/O） |
|---|---|---|---|---|---|---|---|---|
| B1 | OpenAI | GPT-5（gpt-5-thinking + gpt-5-main） | MoE（非公开） | 非公开 | 400K | 闭源 |
|

[Claude.ai](https://claude.ai)· API · Bedrock · Vertex · Foundry[Gemini App](https://gemini.google.com)· Vertex AI**PT-MoE****CC-BY-NC 4.0**（研究权重开放）[Cohere API](https://cohere.com)·[c4ai-command-a](https://huggingface.co/CohereLabs/c4ai-command-a-03-2025)[火山引擎](https://www.volcengine.com/product/doubao)**混合**（0.3B / A3B 子档 Apache-2.0）[文心一言](https://yiyan.baidu.com)· 千帆**混合**（Hunyuan-Large 389B 开源）[Foundry](https://ai.azure.com/catalog/models/MAI-Voice-1)

提示：所有闭源厂商的价格、参数与上下文均可能调整，请以官方文档为准。价格列仅展示已公开数字（Claude Opus/Sonnet 明确披露），其余以"官方报价"替代以避免误导。

自 GPT-2 之后权重转闭源；GPT-3 / GPT-4 / o1 有 arXiv 论文，GPT-4o / o3-mini / DALL·E 等以 System Card 形式发布。本节仅覆盖旗舰闭源线；gpt-oss-120b / 20b 权重开源已列于 Part A #10。

| 时间 | 论文 / 卡片 | 访问方式 | 关键贡献 |
|---|---|---|---|
| 2020-05 |
· NeurIPS 2020 |

**GPT-3 首次揭示"规模涌现"**，175B 稠密 Transformer；首提 In-Context Learning[Training language models to follow instructions with human feedback (arXiv:2203.02155)](https://arxiv.org/abs/2203.02155)**InstructGPT / RLHF 奠基**；PPO + 人类偏好对齐[GPT-4 Technical Report (arXiv:2303.08774)](https://arxiv.org/abs/2303.08774)[ChatGPT](https://chatgpt.com)/ API[GPT-4o System Card（blog）](https://openai.com/index/gpt-4o-system-card/)[OpenAI o1 System Card (arXiv:2412.16720)](https://arxiv.org/abs/2412.16720)*(arXiv v1: 2025-12-19)*[OpenAI GPT-5 System Card (arXiv:2601.03267)](https://arxiv.org/abs/2601.03267)2022 年 Constitutional AI 论文后，Claude 1–4.6 全部仅发布 System Card（PDF），未再在 arXiv 发表整模型训练细节。

| 时间 | 论文 / 卡片 | 访问方式 | 关键贡献 |
|---|---|---|---|
| 2022-12 |
|

**RLAIF / Constitutional AI 奠基**；用模型自评代替人类标注[Claude 3 Model Card（PDF）](https://www-cdn.anthropic.com/de8ba9b01c9ab7cbabf5c33b80b7bbc618857627/Model_Card_Claude_3.pdf)[Claude.ai](https://claude.ai)/ API[Claude 4 System Card（PDF）](https://www.anthropic.com/claude-4-system-card)[Claude Sonnet 4.5 System Card](https://www.anthropic.com/claude-sonnet-4-5-system-card)[Claude Opus 4.5 System Card](https://www.anthropic.com/claude-opus-4-5-system-card)·[Blog](https://www.anthropic.com/news/claude-opus-4-5)`effort`

参数；"最好对齐"的前沿模型[Claude Sonnet 4.6 System Card](https://www.anthropic.com/claude-sonnet-4-6-system-card)·[Blog](https://www.anthropic.com/news/claude-sonnet-4-6)[Claude Opus 4.7 Blog](https://www.anthropic.com/news/claude-opus-4-7)与 Part A #2 Gemma（开源）并行的闭源旗舰。Gemini 1 / 1.5 / 2.5 在 arXiv 有完整技术报告，Gemini 2.0 / 3 仅以 Model Card 形式发布。

| 时间 | 论文 / 卡片 | 访问方式 | 关键贡献 |
|---|---|---|---|
| 2023-12 |
|

[Gemini App](https://gemini.google.com)/ Vertex AI[Gemini 1.5: Unlocking multimodal understanding across millions of tokens of context (arXiv:2403.05530)](https://arxiv.org/abs/2403.05530)**长上下文里程碑**：1.5 Pro 支持 10M tokens 召回[Gemini 2.0 Model Card（blog）](https://blog.google/technology/google-deepmind/google-gemini-ai-update-december-2024/)[Gemini 2.5: Pushing the Frontier with Advanced Reasoning, Multimodality, Long Context, and Next Generation Agentic Capabilities (arXiv:2507.06261)](https://arxiv.org/abs/2507.06261)[Gemini 3 Pro Model Card（PDF）](https://storage.googleapis.com/deepmind-media/Model-Cards/Gemini-3-Pro-Model-Card.pdf)Grok-1（314B MoE）权重开源已列于 Part A #14；Grok-2 起全线闭源，仅发 Model Card。

| 时间 | 论文 / 卡片 | 访问方式 | 关键贡献 |
|---|---|---|---|
| 2024-08 | ⚠️
|

[Grok 3 blog](https://x.ai/news/grok-3)[Grok 4 blog](https://x.ai/news/grok-4)+[Grok 4 Model Card (2025-08-20)](https://data.x.ai/2025-08-20-grok-4-model-card.pdf)[Grok 4 Fast Model Card (2025-09-19)](https://data.x.ai/2025-09-19-grok-4-fast-model-card.pdf)[Grok 4.1 Model Card](https://x.ai/news)端侧 ~3B 模型部分开源（Core ML / Foundation Models framework 供开发者调用），云端 Server 模型闭源；两代均有完整 arXiv 技术报告。

| 时间 | 论文 | 访问方式 | 关键贡献 |
|---|---|---|---|
| 2024-07 |
|

[Apple Intelligence Foundation Language Models: Tech Report 2025 (arXiv:2507.13575)](https://arxiv.org/abs/2507.13575)**PT-MoE**（Parallel-Track MoE）架构；16 种语言；KV-cache sharing 端侧优化Nova 于 2024-12 AWS re:Invent 首发，2025-06 发布合并后的 arXiv 技术报告；2026-01 对 Nova 2.0 Lite 发布安全评估。

| 时间 | 论文 / 卡片 | 访问方式 | 关键贡献 |
|---|---|---|---|
| 2024-12 | ⚠️
|

[The Amazon Nova Family of Models: Technical Report and Model Card (arXiv:2506.12103)](https://arxiv.org/abs/2506.12103)[Evaluating Nova 2.0 Lite under Amazon's Frontier Model Safety Framework (arXiv:2601.19134)](https://arxiv.org/abs/2601.19134)企业 RAG / 多语种领先厂商。Command A 起发布完整 arXiv 技术报告，并以 CC-BY-NC 研究许可开源 111B 权重。

| 时间 | 论文 / 卡片 | 访问方式 | 关键贡献 |
|---|---|---|---|
| 2024-07 ~ 2024-12 | ⚠️ Command R / R+ blog |
|

[Command A: An Enterprise-Ready Large Language Model (arXiv:2504.00698)](https://arxiv.org/abs/2504.00698)[CohereLabs/c4ai-command-a-03-2025](https://huggingface.co/CohereLabs/c4ai-command-a-03-2025)*(CC-BY-NC)*ByteDance Seed 团队维护 Doubao 产品线；Seed-Thinking-v1.5 论文公开思考模型训练细节，但 Doubao 1.5 / 1.6 / Seed-OSS（闭源 API）与多模态分支（Seed1.6-Vision 等）以 blog 发布。

| 时间 | 论文 / 卡片 | 访问方式 | 关键贡献 |
|---|---|---|---|
| 2025-04 |
|

[火山引擎 / Doubao API](https://www.volcengine.com/product/doubao)自 ERNIE 4.5 起小尺寸变体开源（0.3B-PT、A3B-PT 等），旗舰 A47B 仍闭源商业化；ERNIE 5.0 延续混合多模态路线。

| 时间 | 论文 | HuggingFace / 访问方式 | 关键贡献 |
|---|---|---|---|
| 2025-07 |
|

[baidu/ERNIE-4.5-0.3B-PT](https://huggingface.co/baidu/ERNIE-4.5-0.3B-PT)（Apache 2.0）[ERNIE 5.0 Technical Report (arXiv:2602.04705)](https://arxiv.org/abs/2602.04705)[文心一言](https://yiyan.baidu.com)/ 千帆平台同时运营闭源商业化（混元 API）与开源权重（Hunyuan-Large 等）两条线。

| 时间 | 论文 | HuggingFace / 访问方式 | 关键贡献 |
|---|---|---|---|
| 2024-11 |
|

[tencent/Tencent-Hunyuan-Large](https://huggingface.co/tencent/Tencent-Hunyuan-Large)[Hunyuan-TurboS: Advancing Large Language Models through Mamba-Transformer Synergy and Adaptive Chain-of-Thought (arXiv:2505.15431)](https://arxiv.org/abs/2505.15431)2025-08-28 首次公开发布自研基础模型，摆脱对 OpenAI 单一依赖；目前仅有 blog / Foundry 模型目录，无 arXiv 论文。

| 时间 | 论文 / 卡片 | 访问方式 | 关键贡献 |
|---|---|---|---|
| 2025-08 | ⚠️
|

[Azure Foundry](https://ai.azure.com/catalog/models/MAI-Voice-1)| 公司 | 代表作 | 当前状态 |
|---|---|---|
🇺🇸 Reka AI |
|

**Inflection AI****AI21 Labs**[Jamba (arXiv:2403.19887)](https://arxiv.org/abs/2403.19887)· 2024-03** 01.AI****Huawei 华为盘古**[Pangu Ultra MoE (arXiv:2505.04519)](https://arxiv.org/abs/2505.04519)· 2025-05** Kuaishou 快手**[KAT-Coder-V2 (arXiv:2603.27703)](https://arxiv.org/abs/2603.27703)· 2026-03** Poolside**[Laguna M.1/XS.2 (arXiv:2605.27605)](https://arxiv.org/abs/2605.27605)· 2026-05** Arcee AI**[Trinity (arXiv:2602.17004)](https://arxiv.org/abs/2602.17004)· 2026-02** LG AI Research**[EXAONE 4.5 (arXiv:2604.08644)](https://arxiv.org/abs/2604.08644)· 2026-04** Team Phoenix**[Phoenix-VL 1.5 (arXiv:2605.10391)](https://arxiv.org/abs/2605.10391)· 2026-05| 档位 | 定义 | 代表机构 |
|---|---|---|
S |
Fully-open（含训练数据、代码、日志） | Allen AI / Ai2（OLMo） |
1 |
Open-weight + 每代完整 arXiv 技术报告 | DeepSeek · Moonshot · Xiaomi · Ant Group · Meituan · NVIDIA · StepFun · Zhipu / Z.ai · Poolside · Arcee AI · LG AI Research |
2 |
基础系列有论文，旗舰交替采用 blog 发布 | Alibaba（Qwen3.5/3.6 转 blog）· Mistral AI · MiniMax（M2 回归 arXiv） |
3 |
仅 Model Card 或 blog，无完整技术报告 | Meta（Llama 4）· OpenAI（gpt-oss） |
4 |
无正式论文 | xAI（Grok-1） |

| 时间 | 主要事件 |
|---|---|
2021-03 |
GLM（Zhipu / THUDM，中国最早的大模型开源论文之一） |
2023-02 |
LLaMA 1（Meta 开源元年） |
2023-07 |
Llama 2（首次允许商用） |
2023-09 |
Qwen 1.0（Alibaba 入场） |
2023-10 |
Mistral 7B（欧洲入场） |
2024-01 |
DeepSeek LLM、Mixtral 8×7B |
2024-02 |
Nemotron-4 15B、OLMo 1（NVIDIA & Ai2 入场） |
2024-03 |
Gemma 1（Google）、Grok-1（xAI 单次开源） |
2024-07 |
Qwen 2、Llama 3、Gemma 2、Mistral Large 2 |
2024-12 |
DeepSeek-V3（训练成本 2.788M H800 GPU 小时）、Qwen 2.5 |
2025-01 |
⭐ DeepSeek-R1（纯 RL 推理范式）、Kimi k1.5、MiniMax-01、OLMo 2 |
2025-03 |
Ant Ling（蚂蚁入场）、Gemma 3 |
2025-04 |
Nemotron-H（Mamba-Transformer 混合）、Llama 4 Model Card |
2025-05 |
Xiaomi MiMo（小米入场）、Qwen 3、Llama-Nemotron |
2025-07 |
Kimi K2（MuonClip 优化器）、StepFun Step-3（阶跃入场）、Qwen3-Coder（480B 编码专项） |
2025-08 |
GLM-4.5、gpt-oss（OpenAI 首次开源权重） |
2025-09 |
⭐ Meituan LongCat-Flash（美团入场） |
2025-10 |
Ant Ling-1T（当前最大 fully-open 推理基座） |
2025-12 |
DeepSeek-V3.2（DSA 稀疏注意力）、OLMo 3、LongCat-Image、NVIDIA Nemotron 3、Qwen3-Next-80B-A3B（混合架构试验） |
2026-01 |
MiMo-V2-Flash、LongCat-Flash-Thinking-2601、Ministral 3、STEP3-VL-10B |
2026-02 |
⭐ Qwen3.5（Gated DeltaNet + GA 混合架构，原生多模态）、Kimi K2.5、Step 3.5 Flash、GLM-5（Z.ai 重回 arXiv）、Arcee Trinity、Qwen3-Coder-Next、Ant Ling-2.5-1T / Ring-2.5-1T（blog）、Claude Sonnet 4.6、ERNIE 5.0 |
2026-03 |
Nemotron-Cascade 2（3B 激活获 IMO/IOI 金牌） |
2026-04 |
⭐ DeepSeek-V4（1.6T MoE / 49B 激活，CSA+HCA 1M context）、Nemotron 3 Super、Nemotron 3 Nano Omni、EXAONE 4.5（LG AI Research）、Qwen3.6、GLM-5.1（754B MoE，blog）、Claude Opus 4.7 |
2026-05 |
MiniMax-M2 arXiv 技术报告（Forge Agent RL）、Poolside Laguna（编码新入场） |

| 领域 | 代表论文 | 贡献 |
|---|---|---|
规模涌现 / ICL |
OpenAI GPT-3 (2020-05) | 175B 稠密 Transformer 首次显露 few-shot / in-context learning |
RLHF 奠基 |
OpenAI InstructGPT (2022-03) | 建立"人类反馈 + PPO"标准对齐流程 |
Constitutional AI / RLAIF |
Anthropic CAI (2022-12) | 用 AI 反馈替代部分人类标注 |
RL 推理范式 |
DeepSeek-R1 (2025-01) | 首次在大规模 LLM 上验证纯 RL 激活链式推理；Nature 2025 |
System Card + RL 推理 |
OpenAI o1 (2024-12) | 工业界首个"推理模型"范式样板 |
长上下文 |
Gemini 1.5 (2024-03) | 10M tokens 级别长上下文精准检索 |
MoE 架构 |
Mixtral 8×7B (2024-01) / DeepSeek-V3 (2024-12) | 开源 SMoE 的里程碑实现与成本优化范例 |
线性 / 混合注意力 |
MiniMax-01 (2025-01) / Nemotron-H (2025-04) / Hunyuan-TurboS (2025-05) | 商业级线性注意力与 Mamba 混合架构 |
稀疏注意力 |
DeepSeek V3.2 DSA (2025-12) / GLM-5.1 (2026-04) | 显著压缩长上下文推理成本 |
Fully-open 方法论 |
OLMo 系列 | 训练数据、代码、日志完全公开的标杆 |
MoE Scaling Laws |
Ant Ling Scaling Laws (2025-07) | MoE 架构专用缩放定律研究 |
Model-System Co-design |
StepFun Step-3 (2025-07) | 从硬件约束倒推模型架构设计 |
Agentic 基础模型 |
Kimi K2 / GLM-4.5 / LongCat-Flash / Claude 4 Opus | 不同路径的 Agent 原生模型设计 |
生态奠基 |
Llama 2 / Llama 3 | 开源社区的参考实现与商业化基础 |
端侧 / 隐私 |
Apple AFM (2024-07) | 2-bit QAT + 端云协同 Private Cloud Compute |
中国早期贡献 |
GLM / GLM-130B | 2021-2022 年中国最早的大规模开源双语模型工作 |

数据采集自各模型官方技术报告 / 博客 / HuggingFace README（2026-04 访问）。跨家评测受 harness / effort 设置影响，仅作

相对比较参考。

| 模型 | 发布 | SWE-Bench Verified | SWE-Bench Pro | AIME 2026 | HLE（w/ tools） | τ²-Bench | BrowseComp |
|---|---|---|---|---|---|---|---|
DeepSeek-V4-Pro (Think Max) |
2026-04 | 80.6 | — | 89.8 | — | — | — |
Qwen3.5-397B-A17B |
2026-02 | 76.4 | — | 91.3 | — | — | 78.6 |
Qwen3.6-27B |
2026-04 | 77.2 | 53.5 | 94.1 | — | — | — |
GLM-5.1（blog） |
2026-04 | 63.5 | 58.4 |
95.3 | 52.3 | 70.6 | 68.0 |
GLM-5 |
2026-02 | 56.2 | 55.1 | 95.4 | 50.4 | 69.2 | 62.0 |
Kimi K2.5 |
2026-02 | 70.8 | 50.7 | 95.83 | 51.8 | 66.0 | 60.6 |
DeepSeek-V3.2-Speciale |
2025-12 | — | — | 95.1 | 40.8 | 69.2 | 51.4 |
Nemotron 3 Super |
2026-04 | — | — | — | — | — | — |
MiMo-V2-Flash |
2026-01 | — | — | — | — | — | — |
Step 3.5 Flash |
2026-02 | — | — | — | — | 88.2 | 69.0 |
Claude Opus 4.7 |
2026-04 | — | — | — | — | — | — |
Claude Opus 4.5 |
2025-11 | ~80 | 57.3 | — | — | — | — |
Claude Sonnet 4.6 |
2026-02 | 77 → 82 | — | — | — | — | — |
GPT-5 / GPT-5.4 |
2025-08 / 2026-Q1 | — | 57.7 | 98.7 | 39.8 | 72.9 | — |
Gemini 3 Pro |
2025-11 | — | 54.2 | 98.2 | 45.0 | 67.1 | — |
Llama 4 Maverick |
2025-04 | — | — | — | — | — | — |
MiniMax-M2 |
2026-05 | — | — | — | — | — | — |
Poolside Laguna M.1 |
2026-05 | — | — | — | — | — | — |

基准释义：SWE-Bench Verified（真实 GitHub 软件工程问题 500 题，越高越好）· SWE-Bench Pro（工业级难度）· AIME 2026（美国数学邀请赛）· HLE = Humanity's Last Exam（学术前沿多学科推理）· τ²-Bench（客服多轮任务）· BrowseComp（网页浏览代理）。"—"表示该模型未正式披露该基准分数，或基准与模型发布时点不重叠。

部分机构的技术披露形式从完整 arXiv 报告逐渐转向 Model Card 或 blog，但也有厂商在旗舰换代时回归完整论文：

| 公司 | 演化路径 | 观察时点 |
|---|---|---|
| Meta | Llama 1–3 完整论文 → Llama 4 仅 Model Card（arXiv v1 已撤稿） | 2025-04 |
| Z.ai | GLM-4.5 完整论文 → GLM-4.6 / 4.7 blog → GLM-5 重回 arXiv 技术报告 → GLM-5.1 blog |
2025-09 → 2026-02 |
| Mistral | 7B / Mixtral 完整论文 → 旗舰 Large 系列仅 blog；Ministral 3 / Magistral 系列仍发论文 | 持续 |
| MiniMax | MiniMax-01 / M1 完整论文 → M2 系列 blog | 2025-10+ |
| xAI | Grok-1 开源权重 + Model Card → Grok-2+ 闭源 | 2024-08+ |
| Ant Group | Ling 2.0 完整论文 → Ling 2.5 / Ring 2.5 blog | 2026-02 |
| Anthropic | 2022-12 Constitutional AI 论文后，Claude 1 → Opus 4.7 全部仅发 System Card（PDF/HTML），从未再在 arXiv 发表完整训练细节 | 持续 |
| OpenAI | GPT-3 / InstructGPT 完整论文 → GPT-4 "模糊技术报告" → GPT-4o / o3-mini 仅 System Card → o1 / GPT-5 System Card 上 arXiv（但不含训练细节） | 持续 |

仅列出官方披露的训练成本。绝大多数厂商未公开此数据；下表按报告值原样摘录，不做归一化换算。

| 模型 | 参数 | 训练 tokens | 训练算力 | 公开成本 | 来源 |
|---|---|---|---|---|---|
DeepSeek-V3 |
671B MoE / 37B A | 14.8T | 2.788M H800 小时 | ≈ $5.58M（按 $2/h 算） | arXiv:2412.19437 |
DeepSeek-V4-Pro |
1.6T MoE / 49B A | 32T+ | — | — | HuggingFace 技术报告 |
MiniMax-M1 |
456B MoE | — | 512 × H800 × 3 周 | ≈ $534K | arXiv:2506.13585 |
Kimi K2 |
1T MoE / 32B A | 15.5T | — | 零 loss spike（MuonClip） | arXiv:2507.20534 |
Ling-plus |
290B MoE | — | 非顶级 GPU | 较基线降低 ≈ 20% | arXiv:2503.05139 |
NVIDIA Nemotron 3 Super |
120B MoE / 12B A | 25T | — | — | arXiv:2604.12374 |
Microsoft MAI-1-preview |
非公开 | — | ~15k H100 | — |
|

| 公司 | 首次发布 | 技术定位 |
|---|---|---|
| Ant Group（蚂蚁 / inclusionAI） | 2025-03 | 非顶级 GPU 训 1T 参数；MoE Scaling Laws 方法论 |
| Xiaomi（小米 / LLM-Core） | 2025-05 | 小参数高推理；快速迭代 LM → VLM → 大 MoE |
| StepFun（阶跃星辰） | 2025-07 | Model-System Co-design；MFA 注意力与 AFD 推理 |
| Meituan（美团 / LongCat） | 2025-09 | 4 个月覆盖语言 → 全模态 → 图像 → 推理四方向 |

| 公司 | 首次发布 | 技术定位 |
|---|---|---|
| Poolside（poolside.ai） | 2026-05 | 端到端 Agentic Coding；"Model Factory" 训练基础设施 |
| Arcee AI（+ DatologyAI + Prime Intellect） | 2026-02 | Sparse MoE + Sigmoid Routing + SMEBU 负载均衡；零 loss spike |
| LG AI Research（韩国） | 2026-04 | EXAONE 4.5 首款韩国开源 VLM；文档理解与韩语推理 |
| Kuaishou / KwaiKAT（快手） | 2026-03 | KAT-Coder-V2 Agentic 编码（SWE-bench 79.6%） |

在 30+ 家机构、100+ 个模型中，如何选？以下决策路径基于

公开权重可得性 + 许可证友好度 + 公开基准分数给出建议，仅作参考。

| 场景 | 首选（开源优先） | 闭源替代 |
|---|---|---|
通用对话 / 产品接入 |
DeepSeek-V4-Pro · Qwen3.5-397B · GLM-5 | Claude Sonnet 4.6 · Gemini 3 Pro · GPT-5 |
长程 Agentic 编码（SWE-Bench Pro） |
GLM-5.1（58.4%）· Qwen3.6-27B（53.5%）· DeepSeek-V4-Pro · Poolside Laguna | Claude Opus 4.7 · GPT-5 · Gemini 3 Pro |
数学 / 科学推理（IMO、AIME） |
DeepSeek-V3.2-Speciale · Kimi K2.5 · Nemotron-Cascade 2 | GPT-5-thinking · Gemini 3 Pro Deep Think |
长上下文 |
DeepSeek-V4（1M）· Llama 4 Scout（10M）· Nemotron 3 Super（1M）· MiniMax-M2（1M） | Gemini 3 Pro（1M+）· Claude Sonnet 4.6（1M beta） |
边缘 / 端侧 |
Gemma 3 4B · Ministral 3-3B · MiMo 7B · Olmo 3 7B · Qwen3.5-2B | Apple AFM 端侧 3B |
工具调用 / MCP |
Kimi K2.5 · GLM-5 · MiniMax-M2 · LongCat-Flash-Thinking | Claude Opus 4.7 · GPT-5（默认启用工具） |
商用 MoE 性价比 |
DeepSeek-V4-Flash（284B / 13B，MIT）· Qwen3.5（Apache-2.0）· GLM-5（MIT） | — |
完全可复现研究 |
OLMo 3（数据+代码+检查点全开放） |
— |
视觉 + 语言多模态 |
Qwen3.5（原生多模态）· Kimi K2.5 · STEP3-VL-10B · LongCat-Flash-Omni | Gemini 3 Pro · Claude Opus 4.7 · GPT-5 |
多语种 / RAG 企业 |
Cohere Command A（111B，23 种语言）· Qwen3.5（201 种语言） | Gemini 3 Pro · Claude Opus 4.7 |
中文原生场景 |
Qwen3.5 · DeepSeek-V4 · GLM-5 · Kimi K2.5 · ERNIE 4.5-PT | 豆包 1.6 · 混元 · 文心一言 |
图像生成（开源） |
LongCat-Image（6B） | Midjourney · Runway |

**✅ Apache-2.0 / MIT（最友好）**：DeepSeek-V4、Qwen3.5、DeepSeek-V3.2、GLM-5、gpt-oss、Olmo 3、Grok-1、MiMo-V2-Flash、Ministral 3、Ling-1T、LongCat-Flash、Step 3.5 Flash、Arcee Trinity、Poolside Laguna XS.2**⚠️ 定制开源许可（需阅读条款）**：Llama 4（Community License，MAU 限制）、Gemma 3（Gemma Terms）、Kimi K2（Modified MIT）、NVIDIA Nemotron 3**🚫 非商用 / 研究权重**：Cohere Command A（CC-BY-NC 4.0）**🔒 完全闭源**：Claude、Gemini、GPT-5、Grok 2+、Doubao 闭源线、混元 TurboS

```
需要训练数据 / 代码 / 检查点 → OLMo 3（档位 S）
               ↓ No
需要完整 arXiv 技术报告     → DeepSeek / Qwen / Moonshot / GLM-5 / Ant / Meituan / Xiaomi / NVIDIA / StepFun / Apple / Baidu（档位 1）
               ↓ No
接受 blog / Model Card      → Meta Llama 4 / OpenAI gpt-oss / MiniMax M2.5 / GLM-5.1（档位 2-3）
               ↓ No
仅需 API / 闭源             → Claude / Gemini / GPT-5 / Grok 4+
```

| 路线 | 代表机构 / 模型 |
|---|---|
标准 Transformer 稠密 / MoE |
Meta · Mistral · Moonshot · Xiaomi · Ant · Meituan · Zhipu · Poolside |
混合线性注意力 + Transformer |
Alibaba Qwen3.5/3.6（Gated DeltaNet + Gated Attention）· MiniMax（Lightning Attention）· NVIDIA（Mamba-Transformer，Nemotron-H / 3 / Super）· StepFun（MFA）· Xiaomi（SWA + 全局 5:1）· Ant Group Ring-2.5-1T（混合线性）· AI21 Jamba · Tencent Hunyuan-TurboS |
稀疏 / 压缩注意力 |
DeepSeek V4（CSA + HCA）· DeepSeek V3.2（DSA）· Z.ai GLM-5.1（DSA） |
Fully-open 学术派 |
Allen AI / Ai2（OLMo 1/2/3，含 Dolma 数据集、Tülu 3 后训练） |
小尺寸实用派（≤ 30B） |
Google Gemma（2B–27B）· Mistral Ministral（3B–14B）· Xiaomi MiMo（7B）· Allen AI OLMo（7B–32B）· StepFun Step3-VL（10B）· Nemotron 3 Nano（30B / 3B A）· Qwen3.6-27B · Arcee Trinity Nano（6B / 1B A） |
工具 / Agent 原生 |
Kimi K2 / K2.5（MuonClip + Agent Swarm）· GLM-4.5 / GLM-5（ARC + 异步 RL）· MiniMax-M2（Forge Agent RL，自我演化）· LongCat-Flash-Thinking · Claude Opus 4.x · Poolside Laguna |
低比特 / 硬件原生训练 |
NVIDIA Nemotron 3（NVFP4 + LatentMoE）· DeepSeek-V4（FP4+FP8 混合）· Ant Ling 2.0（FP8 训练）· Apple AFM（2-bit QAT 端侧） |
Model-System Co-design |
StepFun Step-3（MFA + AFD）· DeepSeek V3/V4（FP8 训练 + DualPipe） |
新型优化器 |
Moonshot MuonClip · DeepSeek V4 Muon · Arcee Trinity Muon · Ant Group Ling Scaling Laws |
Agentic Coding 专项 |
Qwen3-Coder / Qwen3.6 · Poolside Laguna · KAT-Coder-V2（快手）· IQuest-Coder · GLM-5.1 |

**arXiv**：所有论文编号、标题、提交日期均核对自 arXiv.org abstract 页面（逐条访问）** HuggingFace**：所有模型仓库 URL 均从对应机构官方 HF 组织页面或论文 / 官方博客内链接获取并访问确认**官方博客 / System Card**：直接从公司域名（anthropic.com、openai.com、x.ai、z.ai、mistral.ai、microsoft.ai、amazon.science、deepmind.com 等）访问确认**时间列规则**：- 有 arXiv 论文的条目：使用 arXiv v1 提交月份
- 仅 blog / System Card：使用官方发布日期
- 产品发布与 arXiv 提交不一致时（例如 GPT-5 产品 2025-08 / arXiv 2025-12），以括号形式并列标注

**排行榜参考**（访问日期 2026-04）：

- 访问 arXiv 论文：
`https://arxiv.org/abs/<编号>`

（文档中所有链接均为可点击） - 访问 HuggingFace 模型：直接点击表格中的仓库链接
- HF Papers 聚合（按 arXiv 编号搜索即可）：
[https://huggingface.co/papers](https://huggingface.co/papers)

- 本文档收录
**基础语言模型主线**论文与最重要的 System / Model Card，不含以下内容：- 专项模型（如 Qwen-Math、DeepSeek-Coder、DeepSeek-Prover、MiMo-VL、Qwen3-Coder、GLM-4.6V 等专精分支）
- 评估基准论文（如 Tülu、OpenInstruct 等）
- 纯应用类论文（如 Step-GUI、Step Deep Research、Project Mariner 等）
- 语音 / 图像 / 视频独立生成模型的完整历代（仅选代表作，如 LongCat-Image、Qwen3.5-Omni）

**Part B**尚未覆盖：Midjourney、Runway、Stability AI、Suno、11Labs、Perplexity 等以非 LLM 或以产品为核心的 AI 公司- 非公开技术文档的闭源模型（如部分政府 / 特定行业模型）不在收录范围

**2026-05-28**：大规模补充 2026-02 至 2026-05 新发布模型。新增：DeepSeek-V4（1.6T MoE）、Qwen3.5 / Qwen3.6 / Qwen3-Coder（混合 GDN+GA 架构）、MiniMax-M2（arXiv:2605.26494）、NVIDIA Nemotron 3 Super / Cascade 2 / Nano Omni、Poolside Laguna、Arcee Trinity、LG EXAONE 4.5、KAT-Coder-V2（快手）。总览表从 16 家扩至 19 家，arXiv 速查表新增 13 条，发布时间线延伸至 2026-05，选型指南与基准速览全面更新。**2026-04-21**：完成全量 arXiv 编号与 HuggingFace 链接的二次核对；新增 Claude Opus 4.6 / 4.7 条目；补充 GPT-5 System Card 的 arXiv 提交日期与产品发布日期的错位说明；修正 Step-3 论文标题大小写；完善"数据来源与核对方法"的时间列规则；Anthropic / OpenAI 透明度演化观察新增两行。

如发现链接失效、arXiv 编号错误、遗漏新发布模型，或希望扩充 License 列 / GitHub 列，请在对应表格 PR 中注明：

- 机构 & 系列
- arXiv 编号（若有）或官方 blog URL
- HuggingFace 仓库（若有）
- 核心技术贡献（≤ 1 句）
- 核对日期

按 arXiv ID 升序，便于交叉检索。仅收录 Part A + Part B 正文表格内 arXiv 论文。

| arXiv ID | 标题简写 | 机构 | 时间 |
|---|---|---|---|
| 2005.14165 | GPT-3（Few-Shot Learners） | OpenAI | 2020-05 |
| 2103.10360 | GLM | Zhipu / THUDM | 2021-03 |
| 2203.02155 | InstructGPT | OpenAI | 2022-03 |
| 2210.02414 | GLM-130B | Zhipu | 2022-10 |
| 2212.08073 | Constitutional AI | Anthropic | 2022-12 |
| 2302.13971 | LLaMA 1 | Meta | 2023-02 |
| 2303.08774 | GPT-4 Technical Report | OpenAI | 2023-03 |
| 2307.09288 | Llama 2 | Meta | 2023-07 |
| 2309.16609 | Qwen | Alibaba | 2023-09 |
| 2310.06825 | Mistral 7B | Mistral | 2023-10 |
| 2312.11805 | Gemini 1.0 | 2023-12 | |
| 2401.02954 | DeepSeek LLM | DeepSeek | 2024-01 |
| 2401.04088 | Mixtral of Experts | Mistral | 2024-01 |
| 2402.00838 | OLMo 1 | Ai2 | 2024-02 |
| 2402.16819 | Nemotron-4 15B | NVIDIA | 2024-02 |
| 2403.05530 | Gemini 1.5 | 2024-03 | |
| 2403.08295 | Gemma 1 | 2024-03 | |
| 2403.19887 | Jamba | AI21 Labs | 2024-03 |
| 2404.12387 | Reka Core / Flash / Edge | Reka AI | 2024-04 |
| 2405.04434 | DeepSeek-V2（MLA） | DeepSeek | 2024-05 |
| 2406.11704 | Nemotron-4 340B | NVIDIA | 2024-06 |
| 2406.12793 | ChatGLM | Zhipu | 2024-06 |
| 2407.10671 | Qwen2 | Alibaba | 2024-07 |
| 2407.21075 | Apple AFM 2024 | Apple | 2024-07 |
| 2407.21783 | The Llama 3 Herd | Meta | 2024-07 |
| 2408.00118 | Gemma 2 | 2024-07 | |
| 2411.02265 | Hunyuan-Large | Tencent | 2024-11 |
| 2412.15115 | Qwen2.5 | Alibaba | 2024-12 |
| 2412.16720 | OpenAI o1 System Card | OpenAI | 2024-12 |
| 2412.19437 | DeepSeek-V3 | DeepSeek | 2024-12 |
| 2501.00656 | OLMo 2 | Ai2 | 2025-01 |
| 2501.08313 | MiniMax-01（Lightning Attn） | MiniMax | 2025-01 |
| 2501.12599 | Kimi k1.5 | Moonshot | 2025-01 |
| 2501.12948 | DeepSeek-R1 （Nature 645） |
DeepSeek | 2025-01 |
| 2503.05139 | Ling（Every FLOP Counts） | Ant Group | 2025-03 |
| 2503.19786 | Gemma 3 | 2025-03 | |
| 2504.00698 | Command A | Cohere | 2025-04 |
| 2504.03624 | Nemotron-H | NVIDIA | 2025-04 |
| 2504.07158 | Ring-lite（Compact Reasoning） | Ant Group | 2025-04 |
| 2504.13914 | Seed-Thinking v1.5 | ByteDance | 2025-04 |
| 2505.00949 | Llama-Nemotron | NVIDIA | 2025-05 |
| 2505.04519 | Pangu Ultra MoE | Huawei | 2025-05 |
| 2505.07608 | MiMo（Xiaomi 首款） | Xiaomi | 2025-05 |
| 2505.09388 | Qwen3 | Alibaba | 2025-05 |
| 2505.15431 | Hunyuan-TurboS | Tencent | 2025-05 |
| 2506.03569 | MiMo-VL | Xiaomi | 2025-06 |
| 2506.10910 | Magistral | Mistral | 2025-06 |
| 2506.12103 | Amazon Nova（arXiv 版） | Amazon | 2025-06 |
| 2506.13585 | MiniMax-M1 | MiniMax | 2025-06 |
| 2507.06261 | Gemini 2.5 | 2025-07 | |
| 2507.07145 | ERNIE 4.5 | Baidu | 2025-07 |
| 2507.13575 | Apple AFM 2025（PT-MoE） | Apple | 2025-07 |
| 2507.17702 | Ling Scaling Laws | Ant Group | 2025-07 |
| 2507.19427 | Step-3 | StepFun | 2025-07 |
| 2507.20534 | Kimi K2 | Moonshot | 2025-07 |
| 2508.06471 | GLM-4.5（ARC） | Z.ai | 2025-08 |
| 2508.10925 | gpt-oss-120b / 20b Card | OpenAI | 2025-08 |
| 2509.01322 | LongCat-Flash | Meituan | 2025-09 |
| 2510.22115 | Ling-1T / Ling 2.0 | Ant Group | 2025-10 |
| 2511.00279 | LongCat-Flash-Omni | Meituan | 2025-11 |
| 2512.02556 | DeepSeek-V3.2（DSA） | DeepSeek | 2025-12 |
| 2512.07584 | LongCat-Image | Meituan | 2025-12 |
| 2512.13961 | Olmo 3 | Ai2 | 2025-12 |
| 2512.20856 | Nemotron 3 | NVIDIA | 2025-12 |
| 2601.02780 | MiMo-V2-Flash | Xiaomi | 2026-01 |
| 2601.03267 | GPT-5 System Card | OpenAI | 2026-01（产品 2025-08） |
| 2601.08584 | Ministral 3 | Mistral | 2026-01 |
| 2601.09668 | STEP3-VL-10B | StepFun | 2026-01 |
| 2601.16725 | LongCat-Flash-Thinking-2601 | Meituan | 2026-01 |
| 2601.19134 | Nova 2.0 Lite 安全评估 | Amazon | 2026-01 |
| 2602.02276 | Kimi K2.5 | Moonshot | 2026-02 |
| 2602.04705 | ERNIE 5.0 | Baidu | 2026-02 |
| 2602.10604 | Step 3.5 Flash | StepFun | 2026-02 |
| 2602.15763 | GLM-5 | Z.ai | 2026-02 |
| 2602.17004 | Arcee Trinity | Arcee AI | 2026-02 |
| 2603.00729 | Qwen3-Coder-Next | Alibaba | 2026-02 |
| 2603.19220 | Nemotron-Cascade 2 | NVIDIA | 2026-03 |
| 2603.27703 | KAT-Coder-V2 | Kuaishou | 2026-03 |
| 2604.08644 | EXAONE 4.5 | LG AI Research | 2026-04 |
| 2604.12374 | Nemotron 3 Super | NVIDIA | 2026-04 |
| 2604.24954 | Nemotron 3 Nano Omni | NVIDIA | 2026-04 |
| 2605.26494 | MiniMax-M2 | MiniMax | 2026-05 |
| 2605.27605 | Laguna M.1 / XS.2 | Poolside | 2026-05 |
