| 术语 | 定义 |
|---|---|
| Open-weight(权重开源) | |
| 模型权重公开可下载、允许研究与商用,但训练数据 / 代码通常保留 | |
| Fully-open(完全开源) | |
| 除权重外,训练数据、训练代码、训练日志、中间检查点全部公开(典型代表:OLMo) | |
| Closed / API-first(闭源) | |
| 权重不公开,仅通过 API / 产品提供,典型代表:OpenAI GPT 旗舰 / Anthropic Claude / Google Gemini 旗舰 | |
| Hybrid(混合路线) | |
| 小尺寸 / 上一代权重开源、最新旗舰闭源(典型代表:Baidu ERNIE、Tencent Hunyuan、Cohere Command) | |
| Technical Report | |
| 正式发表于 arXiv / 会议 / 期刊的完整技术文档,含架构、数据、训练、评估细节 | |
| Model Card / System Card | |
| 仅包含模型说明、基本参数、评测与安全信息的简化文档,不包含完整训练细节 |
| # | 公司 | 系列 | 论文数 | 首篇 | 最新 | 透明度档位 |
|---|---|---|---|---|---|---|
| 1 | 🇺🇸 Meta | |||||
| Llama | 3 + 1 Card | 2023-02 | 2025-04 | 档位 3 | ||
| 2 | 🇺🇸 Google DeepMind | |||||
| Gemma | 3 | 2024-03 | 2025-03 | 档位 1 | ||
| 3 | 🇨🇳 Alibaba | |||||
| Qwen | 4 + blog | 2023-09 | 2026-04 | 档位 2 | ||
| 4 | 🇫🇷 Mistral AI | |||||
| Mistral / Mixtral / Magistral / Ministral | 4 | 2023-10 | 2026-01 | 档位 2 | ||
| 5 | 🇨🇳 DeepSeek | |||||
| DeepSeek LLM / V2 / V3 / R1 / V3.2 / V4 | 6 | 2024-01 | 2026-04 | 档位 1 | ||
| 6 | 🇨🇳 Zhipu AI / Z.ai | |||||
| GLM / ChatGLM / GLM-4.5 / GLM-5 | 5 | 2021-03 | 2026-02 | 档位 1 | ||
| 7 | 🇨🇳 Moonshot AI | |||||
| Kimi k1.5 / K2 / K2.5 | 3 | 2025-01 | 2026-02 | 档位 1 | ||
| 8 | 🇨🇳 MiniMax | |||||
| MiniMax-01 / M1 / M2 | 3 | 2025-01 | 2026-05 | 档位 1 | ||
| 9 | 🇨🇳 Xiaomi | |||||
| MiMo / MiMo-VL / MiMo-V2-Flash | 3 | 2025-05 | 2026-01 | 档位 1 | ||
| 10 | 🇺🇸 OpenAI | |||||
| gpt-oss-120b / 20b | 1 Card | 2025-08 | 2025-08 | 档位 3 | ||
| 11 | 🇨🇳 Ant Group (蚂蚁) | |||||
| Ling / Ring / Ling 2.0 / Ling 2.5 | 4 | 2025-03 | 2025-10 | 档位 1 | ||
| 12 | 🇨🇳 Meituan (美团) | |||||
| LongCat Flash / Omni / Image / Thinking | 4 | 2025-09 | 2026-01 | 档位 1 | ||
| 13 | 🇺🇸 NVIDIA | |||||
| Nemotron-4 / Nemotron-H / Llama-Nemotron / Nemotron 3 | 7 | 2024-02 | 2026-04 | 档位 1 | ||
| 14 | 🇺🇸 xAI | |||||
| Grok-1 | 0 (仅 Card) | 2024-03 | 2024-03 | 档位 4 | ||
| 15 | 🇺🇸 Allen AI / Ai2 | |||||
| OLMo / OLMo 2 / OLMo 3 | 3 | 2024-02 | 2025-12 | 档位 S | ||
| 16 | 🇨🇳 StepFun (阶跃星辰) | |||||
| Step-3 / Step3-VL / Step 3.5 Flash | 3 | 2025-07 | 2026-02 | 档位 1 | ||
| 17 | 🇺🇸 Poolside | |||||
| Laguna | 1 | 2026-05 | 2026-05 | 档位 1 | ||
| 18 | 🇺🇸 Arcee AI | |||||
| Trinity | 1 | 2026-02 | 2026-02 | 档位 1 | ||
| 19 | 🇰🇷 LG AI Research | |||||
| EXAONE | 1 | 2026-04 | 2026-04 | 档位 1 |
透明度档位说明:
档位 S:Fully-open(含训练数据、代码、日志)档位 1:Open-weight + 每代完整 arXiv 技术报告档位 2:基础系列有论文,近期旗舰转为 blog 形式档位 3:仅 Model Card 或 blog,无完整技术报告档位 4:无正式论文
每家机构最具代表性的
当前旗舰权重。参数列格式:总参数 (T) / 激活 (A)
;稠密模型只列单个数字。Ctx 为官方声明的最大上下文长度。
| # | 机构 | 当前旗舰 | 架构 | 参数 (T/A) | Ctx | License | GitHub | HuggingFace |
|---|---|---|---|---|---|---|---|---|
| 1 | Meta | Llama 4 Maverick | MoE × 128E | 400B / 17B | 1M | Llama 4 Community | ||
Maverick-17B-128E10MScout-17B-16Egemmagemma-3-27b-itQwen3.6Qwen3.5-397B-A17BQwen3.6-27Bmistral-inferenceMinistral-3 CollectionCSA+HCA+ mHC** 1M**DeepSeek-V4DeepSeek-V4-Pro1MDeepSeek-V4-FlashGLM-5GLM-5DSAGLM-5.1Kimi-K2Kimi-K2.5MiniMax-M1MiniMax-M2MiMoMiMo-V2-Flashgpt-ossgpt-oss-120bLingLing-1TLongCat-FlashLongCat-Flash-Thinking-2601NVFP4+ MTP** 1M**NeMoNemotron-3-Supergrok-1grok-1OLMoOlmo-3-32B-ThinkStep3Step-3.5-FlashLaguna-XS.2Arcee-Trinity-Large
License 速查:
Apache-2.0 / MIT:商用最友好,无字段限制Llama 4 Community / Gemma Terms:商用前请阅读条款(MAU 7 亿门槛、安全使用条款等)Modified MIT(Kimi K2):基本同 MIT,额外要求 "Kimi K2" 在界面可见MiniMax M Use:MiniMax 自有商业许可,个人研究与商用分级NVIDIA Open Model License:允许商用,要求安全使用与合规披露
Llama 1–3 公开完整训练细节,是开源生态早期基石;Llama 4 起转为仅发 Model Card。
| 时间 | 论文 | HuggingFace | 关键贡献 |
|---|---|---|---|
| 2023-02 | |||
(首发需申请,非官方转载存在)Llama 2: Open Foundation and Fine-Tuned Chat Models (arXiv:2307.09288)meta-llama/Llama-2-70b-hfThe Llama 3 Herd of Models (arXiv:2407.21783)meta-llama/Llama-3.1-405BLlama 4 Model Card(arXiv v1 已撤稿)meta-llama/Llama-4-Maverick-17B-128E·meta-llama/Llama-4-Scout-17B-16E将 Gemini 研究成果下沉到轻量级开源模型,专注 2B–27B 消费级部署场景。
| 时间 | 论文 | HuggingFace | 关键贡献 |
|---|---|---|---|
| 2024-03 | |||
google/gemma-7bGemma 2: Improving Open Language Models at a Practical Size (arXiv:2408.00118)google/gemma-2-27bGemma 3 Technical Report (arXiv:2503.19786)google/gemma-3-27b-it中国开源模型中发表最密集的谱系之一,规模覆盖 0.5B 至 235B MoE。
| 时间 | 论文 | HuggingFace | 关键贡献 |
|---|---|---|---|
| 2023-09 | |||
Qwen/Qwen-72BQwen2 Technical Report (arXiv:2407.10671)Qwen/Qwen2-72BQwen2.5 Technical Report (arXiv:2412.15115)Qwen/Qwen2.5-72B-InstructQwen3 Technical Report (arXiv:2505.09388)Qwen/Qwen3-235B-A22BQwen3-Coder(blog)Qwen/Qwen3-Coder-480B-A35B-InstructQwen3.5(blog)Qwen/Qwen3.5-397B-A17B混合 Gated DeltaNet + Gated Attention 架构;原生多模态早期融合;397B / 17B 旗舰,覆盖 0.8B–397B 8 个尺寸;1M 上下文;201 种语言Qwen3.6(blog)Qwen/Qwen3.6-27B·Qwen/Qwen3.6-35B-A3B欧洲开源主力,擅长 MoE 与小参数高效架构。旗舰 Large 系列仅 blog 发布,子系列保留完整论文。
| 时间 | 论文 | HuggingFace | 关键贡献 |
|---|---|---|---|
| 2023-10 | |||
mistralai/Mistral-7B-v0.1Mixtral of Experts (arXiv:2401.04088)mistralai/Mixtral-8x7B-v0.1Mistral Large 2(blog)mistralai/Mistral-Large-Instruct-2407Magistral (arXiv:2506.10910)mistralai/Magistral-Small-2506Ministral 3 (arXiv:2601.08584)mistralai/Ministral-3 Collection开源权重阵营中发表最密集的团队之一,每代均附完整技术报告;R1 论文发表于 Nature。
中国最早公开发布大语言模型论文的机构之一(2021 年起)。GLM-4.5 之后 GLM-4.6 / 4.7 仅以 blog 发布;2026-02 GLM-5 回归 arXiv 完整技术报告。
| 时间 | 论文 | HuggingFace | 关键贡献 |
|---|---|---|---|
| 2021-03 | |||
| · ACL 2022 |
THUDM/glm-10bGLM-130B: An Open Bilingual Pre-trained Model (arXiv:2210.02414)· ICLR 2023**(权重通过GitHub申请下载)ChatGLM: A Family of LMs from GLM-130B to GLM-4 All Tools (arXiv:2406.12793)THUDM/chatglm3-6b·zai-org/glm-4-9b-chatGLM-4.5: Agentic, Reasoning, and Coding (ARC) Foundation Models (arXiv:2508.06471)zai-org/GLM-4.5GLM-4.6 / 4.7(blog)zai-org/GLM-4.6GLM-5: from Vibe Coding to Agentic Engineering (arXiv:2602.15763)zai-org/GLM-5GLM-5.1(blog)2025 年起快速迭代,在优化器、Agent 等方向有独立技术贡献。k1.5 权重未公开,K2 / K2.5 开源。
| 时间 | 论文 | HuggingFace | 关键贡献 |
|---|---|---|---|
| 2025-01 | |||
(GitHub仅发 paper)Kimi K2: Open Agentic Intelligence (arXiv:2507.20534)moonshotai/Kimi-K2-InstructMuonClip优化器;1T MoE / 32B 激活,15.5T tokens 零损失尖峰Kimi K2.5: Visual Agentic Intelligence (arXiv:2602.02276)moonshotai/Kimi-K2.5线性 / 混合注意力架构的实践者;MiniMax-01 / M1 有完整论文,M2 系列转为 blog。
| 时间 | 论文 | HuggingFace | 关键贡献 |
|---|---|---|---|
| 2025-01 | |||
MiniMaxAI/MiniMax-Text-01首个商业级线性注意力(Lightning Attention);456B MoE,4M contextMiniMax-M1: Scaling Test-Time Compute Efficiently (arXiv:2506.13585)MiniMaxAI/MiniMax-M1-80kCISPO RL 算法;1M context,512 张 H800 三周完成 RL(成本约 $534K)MiniMax M2 / M2.1 / M2.5(blog)MiniMaxAI/MiniMax-M2.5MiniMax-M2 Technical Report (arXiv:2605.26494)MiniMaxAI/MiniMax-M2Forge可扩展 Agent 原生 RL 系统;M2.7 支持自我演化(自主调试训练并修改自身 scaffold)小米 LLM-Core 团队,聚焦小参数高推理与效率;论文节奏稳定,每代都开源权重。
| 时间 | 论文 | HuggingFace | 关键贡献 |
|---|---|---|---|
| 2025-05 | |||
XiaomiMiMo/MiMo-7B-RLMiMo-VL Technical Report (arXiv:2506.03569)XiaomiMiMo/MiMo-VL-7B-RLMiMo-V2-Flash Technical Report (arXiv:2601.02780)XiaomiMiMo/MiMo-V2-FlashOpenAI 自 GPT-2 之后首次开源模型权重。文档形式为 Model Card,非完整技术报告。
| 时间 | 论文 | HuggingFace | 关键贡献 |
|---|---|---|---|
| 2025-08 | ⚠️ | ||
openai/gpt-oss-120b·openai/gpt-oss-20b
说明:OpenAI 历史上 GPT-1/2/3/4 论文均非权重开源;自 GPT-2 起直至 gpt-oss 均为闭源。
蚂蚁集团 AGI 研究品牌为
inclusionAI;Ring 是在 Ling 基础模型上构建的推理分支。
| 时间 | 论文 | HuggingFace | 关键贡献 |
|---|---|---|---|
| 2025-03 | |||
inclusionAI/Ling-plus·inclusionAI/Ling-liteHolistic Capability Preservation: Compact Reasoning Models (arXiv:2504.07158)inclusionAI/Ring-lite-distillTowards Greater Leverage: Scaling Laws for Efficient MoE LMs (arXiv:2507.17702)*(方法论论文)*Ling Scaling Laws:MoE 专用缩放定律研究Every Activation Boosted: Scaling General Reasoner to 1 Trillion Open Language Foundation (arXiv:2510.22115)inclusionAI/Ling-1T·inclusionAI/Ling-flash-2.0·inclusionAI/Ling-mini-2.0Ling 2.0 技术报告:Ling-1T 为当前最大规模完全开源推理基座;1/32 稀疏度 + FP8 训练Ling-2.5-1T / Ring-2.5-1T(blog)inclusionAI/Ling-2.5-1T美团 LongCat 团队自 2025-09 起 4 个月内发布 4 篇 arXiv,覆盖语言、全模态、图像、推理四个方向。
| 时间 | 论文 | HuggingFace | 关键贡献 |
|---|---|---|---|
| 2025-09 | |||
meituan-longcat/LongCat-Flash-ChatZero-Computation Experts动态激活(18.6B–31.3B)LongCat-Flash-Omni Technical Report (arXiv:2511.00279)meituan-longcat/LongCat-Flash-OmniLongCat-Image Technical Report (arXiv:2512.07584)meituan-longcat/LongCat-ImageLongCat-Flash-Thinking-2601 Technical Report (arXiv:2601.16725)meituan-longcat/LongCat-Flash-Thinking-2601硬件厂商自研开源路线,强调硬件-算法协同设计(FP8 训练、Mamba 混合、合成数据)。
仅 Grok-1(314B MoE)于 2024-03 公开权重,之后 Grok-2/3/4 全部转为闭源 API。
| 时间 | 论文 | HuggingFace | 关键贡献 |
|---|---|---|---|
| 2024-03 | ❌ | ||
说明:Grok-1 是单次开源事件;Grok-2 起 xAI 转向闭源 API 路线。
Fully-open 路线代表:除权重外,同步开源完整训练数据(Dolma)、代码、训练日志、中间检查点。
| 时间 | 论文 | HuggingFace | 关键贡献 |
|---|---|---|---|
| 2024-02 | |||
allenai/OLMo-7B2 OLMo 2 Furious (arXiv:2501.00656)allenai/OLMo-2-0325-32B-InstructOlmo 3 (arXiv:2512.13961)· Ai2博客首发 2025-11-20allenai/Olmo-3-32B-Think·allenai/Olmo-3-7B-Instruct当前最强 fully-open 推理模型(32B Think);完整 model flow:Dolma 3(9.3T tokens)+ 全部中间检查点
说明:Ai2(Allen Institute for AI)是由 Paul Allen 创立的非营利研究机构,OLMo 是学术透明度的代表性项目。
聚焦 Model-System Co-design(模型-系统协同设计),每篇论文都强调硬件感知的架构选择与推理成本。
| 时间 | 论文 | HuggingFace | 关键贡献 |
|---|---|---|---|
| 2025-07 | |||
stepfun-ai/step3MFA(Multi-Matrix Factorization Attention)+** AFD**(Attention-FFN Disaggregation)推理架构STEP3-VL-10B Technical Report (arXiv:2601.09668)stepfun-ai/Step3-VL-10BPaCoRe(Parallel Coordinated Reasoning)并行推理Step 3.5 Flash: Open Frontier-Level Intelligence with 11B Active Parameters (arXiv:2602.10604)stepfun-ai/Step-3.5-Flash
说明:StepFun 另有 Step-GUI、Step Deep Research 等多个专项论文,本表仅列出基础语言模型主线。
2026 年新入场的 AI 编码公司,聚焦长程 Agentic Coding,端到端在 "Model Factory" 基础设施中训练。
| 时间 | 论文 | HuggingFace | 关键贡献 |
|---|---|---|---|
| 2026-05 | |||
poolside/Laguna-XS.2与 DatologyAI、Prime Intellect 合作训练,强调 Sparse MoE 训练稳定性。
| 时间 | 论文 | HuggingFace | 关键贡献 |
|---|---|---|---|
| 2026-02 | |||
arcee-ai/Arcee-Trinity-LargeSMEBU负载均衡;Muon 优化器;10–17T tokens 训练零 loss spike韩国 LG 集团 AI 研究院,EXAONE 4.5 为首款开源视觉语言模型。
| 时间 | 论文 | HuggingFace | 关键贡献 |
|---|---|---|---|
| 2026-04 | |||
以下公司的旗舰模型以闭源 API 为主,但仍多发布较完整的技术报告或 System Card。其中 Apple / Amazon / Cohere / ByteDance / Baidu / Tencent 属于"混合路线"——小尺寸或上一代权重部分公开,旗舰闭源。
| # | 公司 | 系列 | 论文/卡片数 | 首篇 | 最新 | 透明度档位 |
|---|---|---|---|---|---|---|
| B1 | 🇺🇸 OpenAI(旗舰闭源) | |||||
| GPT-3 / GPT-4 / GPT-4o / o1 / GPT-5 | 5 (含 2 System Card) | 2020-05 | 2026-01 | 档位 2 | ||
| B2 | 🇺🇸 Anthropic | |||||
| Claude 1 → Claude Opus 4.7 | 1 论文 + 多份 System Card | 2022-12 | 2026-04 | 档位 3 | ||
| B3 | 🇺🇸 Google DeepMind(Gemini 闭源线) | |||||
| Gemini 1 / 1.5 / 2.5 / 3 | 3 + 1 Model Card | 2023-12 | 2025-11 | 档位 1 | ||
| B4 | 🇺🇸 xAI(Grok-2+ 闭源线) | |||||
| Grok-2 / 3 / 4 / 4.1 / 4 Fast | 0 + 多份 Model Card | 2024-08 | 2025-11 | 档位 3 | ||
| B5 | 🇺🇸 Apple | |||||
| AFM 2024 / AFM 2025 | 2 | 2024-07 | 2025-07 | 档位 1(含端侧开源) | ||
| B6 | 🇺🇸 Amazon | |||||
| Amazon Nova / Nova Premier / Nova 2.0 | 3 | 2024-12 | 2026-01 | 档位 2 | ||
| B7 | 🇨🇦 Cohere | |||||
| Command R / R+ / A / A Reasoning | 1 + blog | 2024-07 | 2025-04 | 档位 1(研究权重 CC-BY-NC) | ||
| B8 | 🇨🇳 ByteDance Seed(豆包 / Doubao) | |||||
| Seed-Thinking-v1.5 / Doubao 1.5 / 1.6 | 1 + blog | 2025-04 | 2025-10 | 档位 2 | ||
| B9 | 🇨🇳 Baidu 文心(百度 ERNIE) | |||||
| ERNIE 4.5 / ERNIE 5.0 | 2 | 2025-07 | 2026-02 | 档位 1(含部分开源) | ||
| B10 | 🇨🇳 Tencent 混元(腾讯 Hunyuan) | |||||
| Hunyuan-Large / TurboS | 2 | 2024-11 | 2025-05 | 档位 1(含部分开源) | ||
| B11 | 🇺🇸 Microsoft AI(MAI) | |||||
| MAI-1-preview / MAI-Voice-1 | 0(仅 blog) | 2025-08 | 2025-08 | 档位 3 |
更小众 / 已被收购的公司(Reka AI、Inflection AI、AI21 Labs)见"📎 其他值得关注"。
闭源 / 混合路线旗舰的访问方式与当前(2026-04)对外报价。价格列为 USD / 1M tokens(输入 / 输出),缓存折扣不纳入。
| # | 机构 | 当前旗舰 | 架构 | 参数 | Ctx | License / 权重 | 访问 | 价格(I/O) |
|---|---|---|---|---|---|---|---|---|
| B1 | OpenAI | GPT-5(gpt-5-thinking + gpt-5-main) | MoE(非公开) | 非公开 | 400K | 闭源 | ||
Claude.ai· API · Bedrock · Vertex · FoundryGemini App· Vertex AIPT-MoE****CC-BY-NC 4.0(研究权重开放)Cohere API·c4ai-command-a火山引擎混合(0.3B / A3B 子档 Apache-2.0)文心一言· 千帆混合(Hunyuan-Large 389B 开源)Foundry
提示:所有闭源厂商的价格、参数与上下文均可能调整,请以官方文档为准。价格列仅展示已公开数字(Claude Opus/Sonnet 明确披露),其余以"官方报价"替代以避免误导。
自 GPT-2 之后权重转闭源;GPT-3 / GPT-4 / o1 有 arXiv 论文,GPT-4o / o3-mini / DALL·E 等以 System Card 形式发布。本节仅覆盖旗舰闭源线;gpt-oss-120b / 20b 权重开源已列于 Part A #10。
| 时间 | 论文 / 卡片 | 访问方式 | 关键贡献 |
|---|---|---|---|
| 2020-05 | |||
| · NeurIPS 2020 |
GPT-3 首次揭示"规模涌现",175B 稠密 Transformer;首提 In-Context LearningTraining language models to follow instructions with human feedback (arXiv:2203.02155)InstructGPT / RLHF 奠基;PPO + 人类偏好对齐GPT-4 Technical Report (arXiv:2303.08774)ChatGPT/ APIGPT-4o System Card(blog)OpenAI o1 System Card (arXiv:2412.16720)(arXiv v1: 2025-12-19)OpenAI GPT-5 System Card (arXiv:2601.03267)2022 年 Constitutional AI 论文后,Claude 1–4.6 全部仅发布 System Card(PDF),未再在 arXiv 发表整模型训练细节。
| 时间 | 论文 / 卡片 | 访问方式 | 关键贡献 |
|---|---|---|---|
| 2022-12 | |||
RLAIF / Constitutional AI 奠基;用模型自评代替人类标注Claude 3 Model Card(PDF)Claude.ai/ APIClaude 4 System Card(PDF)Claude Sonnet 4.5 System CardClaude Opus 4.5 System Card·Blogeffort
参数;"最好对齐"的前沿模型Claude Sonnet 4.6 System Card·BlogClaude Opus 4.7 Blog与 Part A #2 Gemma(开源)并行的闭源旗舰。Gemini 1 / 1.5 / 2.5 在 arXiv 有完整技术报告,Gemini 2.0 / 3 仅以 Model Card 形式发布。
| 时间 | 论文 / 卡片 | 访问方式 | 关键贡献 |
|---|---|---|---|
| 2023-12 | |||
Gemini App/ Vertex AIGemini 1.5: Unlocking multimodal understanding across millions of tokens of context (arXiv:2403.05530)长上下文里程碑:1.5 Pro 支持 10M tokens 召回Gemini 2.0 Model Card(blog)Gemini 2.5: Pushing the Frontier with Advanced Reasoning, Multimodality, Long Context, and Next Generation Agentic Capabilities (arXiv:2507.06261)Gemini 3 Pro Model Card(PDF)Grok-1(314B MoE)权重开源已列于 Part A #14;Grok-2 起全线闭源,仅发 Model Card。
| 时间 | 论文 / 卡片 | 访问方式 | 关键贡献 |
|---|---|---|---|
| 2024-08 | ⚠️ | ||
Grok 3 blogGrok 4 blog+Grok 4 Model Card (2025-08-20)Grok 4 Fast Model Card (2025-09-19)Grok 4.1 Model Card端侧 ~3B 模型部分开源(Core ML / Foundation Models framework 供开发者调用),云端 Server 模型闭源;两代均有完整 arXiv 技术报告。
| 时间 | 论文 | 访问方式 | 关键贡献 |
|---|---|---|---|
| 2024-07 | |||
Apple Intelligence Foundation Language Models: Tech Report 2025 (arXiv:2507.13575)PT-MoE(Parallel-Track MoE)架构;16 种语言;KV-cache sharing 端侧优化Nova 于 2024-12 AWS re:Invent 首发,2025-06 发布合并后的 arXiv 技术报告;2026-01 对 Nova 2.0 Lite 发布安全评估。
| 时间 | 论文 / 卡片 | 访问方式 | 关键贡献 |
|---|---|---|---|
| 2024-12 | ⚠️ | ||
The Amazon Nova Family of Models: Technical Report and Model Card (arXiv:2506.12103)Evaluating Nova 2.0 Lite under Amazon's Frontier Model Safety Framework (arXiv:2601.19134)企业 RAG / 多语种领先厂商。Command A 起发布完整 arXiv 技术报告,并以 CC-BY-NC 研究许可开源 111B 权重。
| 时间 | 论文 / 卡片 | 访问方式 | 关键贡献 |
|---|---|---|---|
| 2024-07 ~ 2024-12 | ⚠️ Command R / R+ blog | ||
Command A: An Enterprise-Ready Large Language Model (arXiv:2504.00698)CohereLabs/c4ai-command-a-03-2025*(CC-BY-NC)*ByteDance Seed 团队维护 Doubao 产品线;Seed-Thinking-v1.5 论文公开思考模型训练细节,但 Doubao 1.5 / 1.6 / Seed-OSS(闭源 API)与多模态分支(Seed1.6-Vision 等)以 blog 发布。
| 时间 | 论文 / 卡片 | 访问方式 | 关键贡献 |
|---|---|---|---|
| 2025-04 | |||
火山引擎 / Doubao API自 ERNIE 4.5 起小尺寸变体开源(0.3B-PT、A3B-PT 等),旗舰 A47B 仍闭源商业化;ERNIE 5.0 延续混合多模态路线。
| 时间 | 论文 | HuggingFace / 访问方式 | 关键贡献 |
|---|---|---|---|
| 2025-07 | |||
baidu/ERNIE-4.5-0.3B-PT(Apache 2.0)ERNIE 5.0 Technical Report (arXiv:2602.04705)文心一言/ 千帆平台同时运营闭源商业化(混元 API)与开源权重(Hunyuan-Large 等)两条线。
| 时间 | 论文 | HuggingFace / 访问方式 | 关键贡献 |
|---|---|---|---|
| 2024-11 | |||
tencent/Tencent-Hunyuan-LargeHunyuan-TurboS: Advancing Large Language Models through Mamba-Transformer Synergy and Adaptive Chain-of-Thought (arXiv:2505.15431)2025-08-28 首次公开发布自研基础模型,摆脱对 OpenAI 单一依赖;目前仅有 blog / Foundry 模型目录,无 arXiv 论文。
| 时间 | 论文 / 卡片 | 访问方式 | 关键贡献 |
|---|---|---|---|
| 2025-08 | ⚠️ | ||
Azure Foundry| 公司 | 代表作 | 当前状态 | |---|---|---| 🇺🇸 Reka AI | |
Inflection AI****AI21 LabsJamba (arXiv:2403.19887)· 2024-03** 01.AI****Huawei 华为盘古**Pangu Ultra MoE (arXiv:2505.04519)· 2025-05** Kuaishou 快手**KAT-Coder-V2 (arXiv:2603.27703)· 2026-03** Poolside**Laguna M.1/XS.2 (arXiv:2605.27605)· 2026-05** Arcee AI**Trinity (arXiv:2602.17004)· 2026-02** LG AI Research**EXAONE 4.5 (arXiv:2604.08644)· 2026-04** Team Phoenix**Phoenix-VL 1.5 (arXiv:2605.10391)· 2026-05| 档位 | 定义 | 代表机构 | |---|---|---| S | Fully-open(含训练数据、代码、日志) | Allen AI / Ai2(OLMo) | 1 | Open-weight + 每代完整 arXiv 技术报告 | DeepSeek · Moonshot · Xiaomi · Ant Group · Meituan · NVIDIA · StepFun · Zhipu / Z.ai · Poolside · Arcee AI · LG AI Research | 2 | 基础系列有论文,旗舰交替采用 blog 发布 | Alibaba(Qwen3.5/3.6 转 blog)· Mistral AI · MiniMax(M2 回归 arXiv) | 3 | 仅 Model Card 或 blog,无完整技术报告 | Meta(Llama 4)· OpenAI(gpt-oss) | 4 | 无正式论文 | xAI(Grok-1) |
| 时间 | 主要事件 |
|---|---|
| 2021-03 | |
| GLM(Zhipu / THUDM,中国最早的大模型开源论文之一) | |
| 2023-02 | |
| LLaMA 1(Meta 开源元年) | |
| 2023-07 | |
| Llama 2(首次允许商用) | |
| 2023-09 | |
| Qwen 1.0(Alibaba 入场) | |
| 2023-10 | |
| Mistral 7B(欧洲入场) | |
| 2024-01 | |
| DeepSeek LLM、Mixtral 8×7B | |
| 2024-02 | |
| Nemotron-4 15B、OLMo 1(NVIDIA & Ai2 入场) | |
| 2024-03 | |
| Gemma 1(Google)、Grok-1(xAI 单次开源) | |
| 2024-07 | |
| Qwen 2、Llama 3、Gemma 2、Mistral Large 2 | |
| 2024-12 | |
| DeepSeek-V3(训练成本 2.788M H800 GPU 小时)、Qwen 2.5 | |
| 2025-01 | |
| ⭐ DeepSeek-R1(纯 RL 推理范式)、Kimi k1.5、MiniMax-01、OLMo 2 | |
| 2025-03 | |
| Ant Ling(蚂蚁入场)、Gemma 3 | |
| 2025-04 | |
| Nemotron-H(Mamba-Transformer 混合)、Llama 4 Model Card | |
| 2025-05 | |
| Xiaomi MiMo(小米入场)、Qwen 3、Llama-Nemotron | |
| 2025-07 | |
| Kimi K2(MuonClip 优化器)、StepFun Step-3(阶跃入场)、Qwen3-Coder(480B 编码专项) | |
| 2025-08 | |
| GLM-4.5、gpt-oss(OpenAI 首次开源权重) | |
| 2025-09 | |
| ⭐ Meituan LongCat-Flash(美团入场) | |
| 2025-10 | |
| Ant Ling-1T(当前最大 fully-open 推理基座) | |
| 2025-12 | |
| DeepSeek-V3.2(DSA 稀疏注意力)、OLMo 3、LongCat-Image、NVIDIA Nemotron 3、Qwen3-Next-80B-A3B(混合架构试验) | |
| 2026-01 | |
| MiMo-V2-Flash、LongCat-Flash-Thinking-2601、Ministral 3、STEP3-VL-10B | |
| 2026-02 | |
| ⭐ Qwen3.5(Gated DeltaNet + GA 混合架构,原生多模态)、Kimi K2.5、Step 3.5 Flash、GLM-5(Z.ai 重回 arXiv)、Arcee Trinity、Qwen3-Coder-Next、Ant Ling-2.5-1T / Ring-2.5-1T(blog)、Claude Sonnet 4.6、ERNIE 5.0 | |
| 2026-03 | |
| Nemotron-Cascade 2(3B 激活获 IMO/IOI 金牌) | |
| 2026-04 | |
| ⭐ DeepSeek-V4(1.6T MoE / 49B 激活,CSA+HCA 1M context)、Nemotron 3 Super、Nemotron 3 Nano Omni、EXAONE 4.5(LG AI Research)、Qwen3.6、GLM-5.1(754B MoE,blog)、Claude Opus 4.7 | |
| 2026-05 | |
| MiniMax-M2 arXiv 技术报告(Forge Agent RL)、Poolside Laguna(编码新入场) |
| 领域 | 代表论文 | 贡献 |
|---|---|---|
| 规模涌现 / ICL | ||
| OpenAI GPT-3 (2020-05) | 175B 稠密 Transformer 首次显露 few-shot / in-context learning | |
| RLHF 奠基 | ||
| OpenAI InstructGPT (2022-03) | 建立"人类反馈 + PPO"标准对齐流程 | |
| Constitutional AI / RLAIF | ||
| Anthropic CAI (2022-12) | 用 AI 反馈替代部分人类标注 | |
| RL 推理范式 | ||
| DeepSeek-R1 (2025-01) | 首次在大规模 LLM 上验证纯 RL 激活链式推理;Nature 2025 | |
| System Card + RL 推理 | ||
| OpenAI o1 (2024-12) | 工业界首个"推理模型"范式样板 | |
| 长上下文 | ||
| Gemini 1.5 (2024-03) | 10M tokens 级别长上下文精准检索 | |
| MoE 架构 | ||
| Mixtral 8×7B (2024-01) / DeepSeek-V3 (2024-12) | 开源 SMoE 的里程碑实现与成本优化范例 | |
| 线性 / 混合注意力 | ||
| MiniMax-01 (2025-01) / Nemotron-H (2025-04) / Hunyuan-TurboS (2025-05) | 商业级线性注意力与 Mamba 混合架构 | |
| 稀疏注意力 | ||
| DeepSeek V3.2 DSA (2025-12) / GLM-5.1 (2026-04) | 显著压缩长上下文推理成本 | |
| Fully-open 方法论 | ||
| OLMo 系列 | 训练数据、代码、日志完全公开的标杆 | |
| MoE Scaling Laws | ||
| Ant Ling Scaling Laws (2025-07) | MoE 架构专用缩放定律研究 | |
| Model-System Co-design | ||
| StepFun Step-3 (2025-07) | 从硬件约束倒推模型架构设计 | |
| Agentic 基础模型 | ||
| Kimi K2 / GLM-4.5 / LongCat-Flash / Claude 4 Opus | 不同路径的 Agent 原生模型设计 | |
| 生态奠基 | ||
| Llama 2 / Llama 3 | 开源社区的参考实现与商业化基础 | |
| 端侧 / 隐私 | ||
| Apple AFM (2024-07) | 2-bit QAT + 端云协同 Private Cloud Compute | |
| 中国早期贡献 | ||
| GLM / GLM-130B | 2021-2022 年中国最早的大规模开源双语模型工作 |
数据采集自各模型官方技术报告 / 博客 / HuggingFace README(2026-04 访问)。跨家评测受 harness / effort 设置影响,仅作
相对比较参考。
| 模型 | 发布 | SWE-Bench Verified | SWE-Bench Pro | AIME 2026 | HLE(w/ tools) | τ²-Bench | BrowseComp |
|---|---|---|---|---|---|---|---|
| DeepSeek-V4-Pro (Think Max) | |||||||
| 2026-04 | 80.6 | — | 89.8 | — | — | — | |
| Qwen3.5-397B-A17B | |||||||
| 2026-02 | 76.4 | — | 91.3 | — | — | 78.6 | |
| Qwen3.6-27B | |||||||
| 2026-04 | 77.2 | 53.5 | 94.1 | — | — | — | |
| GLM-5.1(blog) | |||||||
| 2026-04 | 63.5 | 58.4 | |||||
| 95.3 | 52.3 | 70.6 | 68.0 | ||||
| GLM-5 | |||||||
| 2026-02 | 56.2 | 55.1 | 95.4 | 50.4 | 69.2 | 62.0 | |
| Kimi K2.5 | |||||||
| 2026-02 | 70.8 | 50.7 | 95.83 | 51.8 | 66.0 | 60.6 | |
| DeepSeek-V3.2-Speciale | |||||||
| 2025-12 | — | — | 95.1 | 40.8 | 69.2 | 51.4 | |
| Nemotron 3 Super | |||||||
| 2026-04 | — | — | — | — | — | — | |
| MiMo-V2-Flash | |||||||
| 2026-01 | — | — | — | — | — | — | |
| Step 3.5 Flash | |||||||
| 2026-02 | — | — | — | — | 88.2 | 69.0 | |
| Claude Opus 4.7 | |||||||
| 2026-04 | — | — | — | — | — | — | |
| Claude Opus 4.5 | |||||||
| 2025-11 | ~80 | 57.3 | — | — | — | — | |
| Claude Sonnet 4.6 | |||||||
| 2026-02 | 77 → 82 | — | — | — | — | — | |
| GPT-5 / GPT-5.4 | |||||||
| 2025-08 / 2026-Q1 | — | 57.7 | 98.7 | 39.8 | 72.9 | — | |
| Gemini 3 Pro | |||||||
| 2025-11 | — | 54.2 | 98.2 | 45.0 | 67.1 | — | |
| Llama 4 Maverick | |||||||
| 2025-04 | — | — | — | — | — | — | |
| MiniMax-M2 | |||||||
| 2026-05 | — | — | — | — | — | — | |
| Poolside Laguna M.1 | |||||||
| 2026-05 | — | — | — | — | — | — |
基准释义:SWE-Bench Verified(真实 GitHub 软件工程问题 500 题,越高越好)· SWE-Bench Pro(工业级难度)· AIME 2026(美国数学邀请赛)· HLE = Humanity's Last Exam(学术前沿多学科推理)· τ²-Bench(客服多轮任务)· BrowseComp(网页浏览代理)。"—"表示该模型未正式披露该基准分数,或基准与模型发布时点不重叠。
部分机构的技术披露形式从完整 arXiv 报告逐渐转向 Model Card 或 blog,但也有厂商在旗舰换代时回归完整论文:
| 公司 | 演化路径 | 观察时点 |
|---|---|---|
| Meta | Llama 1–3 完整论文 → Llama 4 仅 Model Card(arXiv v1 已撤稿) | 2025-04 |
| Z.ai | GLM-4.5 完整论文 → GLM-4.6 / 4.7 blog → GLM-5 重回 arXiv 技术报告 → GLM-5.1 blog | |
| 2025-09 → 2026-02 | ||
| Mistral | 7B / Mixtral 完整论文 → 旗舰 Large 系列仅 blog;Ministral 3 / Magistral 系列仍发论文 | 持续 |
| MiniMax | MiniMax-01 / M1 完整论文 → M2 系列 blog | 2025-10+ |
| xAI | Grok-1 开源权重 + Model Card → Grok-2+ 闭源 | 2024-08+ |
| Ant Group | Ling 2.0 完整论文 → Ling 2.5 / Ring 2.5 blog | 2026-02 |
| Anthropic | 2022-12 Constitutional AI 论文后,Claude 1 → Opus 4.7 全部仅发 System Card(PDF/HTML),从未再在 arXiv 发表完整训练细节 | 持续 |
| OpenAI | GPT-3 / InstructGPT 完整论文 → GPT-4 "模糊技术报告" → GPT-4o / o3-mini 仅 System Card → o1 / GPT-5 System Card 上 arXiv(但不含训练细节) | 持续 |
仅列出官方披露的训练成本。绝大多数厂商未公开此数据;下表按报告值原样摘录,不做归一化换算。
| 模型 | 参数 | 训练 tokens | 训练算力 | 公开成本 | 来源 |
|---|---|---|---|---|---|
| DeepSeek-V3 | |||||
| 671B MoE / 37B A | 14.8T | 2.788M H800 小时 | ≈ $5.58M(按 $2/h 算) | arXiv:2412.19437 | |
| DeepSeek-V4-Pro | |||||
| 1.6T MoE / 49B A | 32T+ | — | — | HuggingFace 技术报告 | |
| MiniMax-M1 | |||||
| 456B MoE | — | 512 × H800 × 3 周 | ≈ $534K | arXiv:2506.13585 | |
| Kimi K2 | |||||
| 1T MoE / 32B A | 15.5T | — | 零 loss spike(MuonClip) | arXiv:2507.20534 | |
| Ling-plus | |||||
| 290B MoE | — | 非顶级 GPU | 较基线降低 ≈ 20% | arXiv:2503.05139 | |
| NVIDIA Nemotron 3 Super | |||||
| 120B MoE / 12B A | 25T | — | — | arXiv:2604.12374 | |
| Microsoft MAI-1-preview | |||||
| 非公开 | — | ~15k H100 | — | ||
| 公司 | 首次发布 | 技术定位 |
|---|---|---|
| Ant Group(蚂蚁 / inclusionAI) | 2025-03 | 非顶级 GPU 训 1T 参数;MoE Scaling Laws 方法论 |
| Xiaomi(小米 / LLM-Core) | 2025-05 | 小参数高推理;快速迭代 LM → VLM → 大 MoE |
| StepFun(阶跃星辰) | 2025-07 | Model-System Co-design;MFA 注意力与 AFD 推理 |
| Meituan(美团 / LongCat) | 2025-09 | 4 个月覆盖语言 → 全模态 → 图像 → 推理四方向 |
| 公司 | 首次发布 | 技术定位 |
|---|---|---|
| Poolside(poolside.ai) | 2026-05 | 端到端 Agentic Coding;"Model Factory" 训练基础设施 |
| Arcee AI(+ DatologyAI + Prime Intellect) | 2026-02 | Sparse MoE + Sigmoid Routing + SMEBU 负载均衡;零 loss spike |
| LG AI Research(韩国) | 2026-04 | EXAONE 4.5 首款韩国开源 VLM;文档理解与韩语推理 |
| Kuaishou / KwaiKAT(快手) | 2026-03 | KAT-Coder-V2 Agentic 编码(SWE-bench 79.6%) |
在 30+ 家机构、100+ 个模型中,如何选?以下决策路径基于
公开权重可得性 + 许可证友好度 + 公开基准分数给出建议,仅作参考。
| 场景 | 首选(开源优先) | 闭源替代 |
|---|---|---|
| 通用对话 / 产品接入 | ||
| DeepSeek-V4-Pro · Qwen3.5-397B · GLM-5 | Claude Sonnet 4.6 · Gemini 3 Pro · GPT-5 | |
| 长程 Agentic 编码(SWE-Bench Pro) | ||
| GLM-5.1(58.4%)· Qwen3.6-27B(53.5%)· DeepSeek-V4-Pro · Poolside Laguna | Claude Opus 4.7 · GPT-5 · Gemini 3 Pro | |
| 数学 / 科学推理(IMO、AIME) | ||
| DeepSeek-V3.2-Speciale · Kimi K2.5 · Nemotron-Cascade 2 | GPT-5-thinking · Gemini 3 Pro Deep Think | |
| 长上下文 | ||
| DeepSeek-V4(1M)· Llama 4 Scout(10M)· Nemotron 3 Super(1M)· MiniMax-M2(1M) | Gemini 3 Pro(1M+)· Claude Sonnet 4.6(1M beta) | |
| 边缘 / 端侧 | ||
| Gemma 3 4B · Ministral 3-3B · MiMo 7B · Olmo 3 7B · Qwen3.5-2B | Apple AFM 端侧 3B | |
| 工具调用 / MCP | ||
| Kimi K2.5 · GLM-5 · MiniMax-M2 · LongCat-Flash-Thinking | Claude Opus 4.7 · GPT-5(默认启用工具) | |
| 商用 MoE 性价比 | ||
| DeepSeek-V4-Flash(284B / 13B,MIT)· Qwen3.5(Apache-2.0)· GLM-5(MIT) | — | |
| 完全可复现研究 | ||
| OLMo 3(数据+代码+检查点全开放) | ||
| — | ||
| 视觉 + 语言多模态 | ||
| Qwen3.5(原生多模态)· Kimi K2.5 · STEP3-VL-10B · LongCat-Flash-Omni | Gemini 3 Pro · Claude Opus 4.7 · GPT-5 | |
| 多语种 / RAG 企业 | ||
| Cohere Command A(111B,23 种语言)· Qwen3.5(201 种语言) | Gemini 3 Pro · Claude Opus 4.7 | |
| 中文原生场景 | ||
| Qwen3.5 · DeepSeek-V4 · GLM-5 · Kimi K2.5 · ERNIE 4.5-PT | 豆包 1.6 · 混元 · 文心一言 | |
| 图像生成(开源) | ||
| LongCat-Image(6B) | Midjourney · Runway |
✅ Apache-2.0 / MIT(最友好):DeepSeek-V4、Qwen3.5、DeepSeek-V3.2、GLM-5、gpt-oss、Olmo 3、Grok-1、MiMo-V2-Flash、Ministral 3、Ling-1T、LongCat-Flash、Step 3.5 Flash、Arcee Trinity、Poolside Laguna XS.2⚠️ 定制开源许可(需阅读条款):Llama 4(Community License,MAU 限制)、Gemma 3(Gemma Terms)、Kimi K2(Modified MIT)、NVIDIA Nemotron 3🚫 非商用 / 研究权重:Cohere Command A(CC-BY-NC 4.0)🔒 完全闭源:Claude、Gemini、GPT-5、Grok 2+、Doubao 闭源线、混元 TurboS
需要训练数据 / 代码 / 检查点 → OLMo 3(档位 S)
↓ No
需要完整 arXiv 技术报告 → DeepSeek / Qwen / Moonshot / GLM-5 / Ant / Meituan / Xiaomi / NVIDIA / StepFun / Apple / Baidu(档位 1)
↓ No
接受 blog / Model Card → Meta Llama 4 / OpenAI gpt-oss / MiniMax M2.5 / GLM-5.1(档位 2-3)
↓ No
仅需 API / 闭源 → Claude / Gemini / GPT-5 / Grok 4+
| 路线 | 代表机构 / 模型 |
|---|---|
| 标准 Transformer 稠密 / MoE | |
| Meta · Mistral · Moonshot · Xiaomi · Ant · Meituan · Zhipu · Poolside | |
| 混合线性注意力 + Transformer | |
| Alibaba Qwen3.5/3.6(Gated DeltaNet + Gated Attention)· MiniMax(Lightning Attention)· NVIDIA(Mamba-Transformer,Nemotron-H / 3 / Super)· StepFun(MFA)· Xiaomi(SWA + 全局 5:1)· Ant Group Ring-2.5-1T(混合线性)· AI21 Jamba · Tencent Hunyuan-TurboS | |
| 稀疏 / 压缩注意力 | |
| DeepSeek V4(CSA + HCA)· DeepSeek V3.2(DSA)· Z.ai GLM-5.1(DSA) | |
| Fully-open 学术派 | |
| Allen AI / Ai2(OLMo 1/2/3,含 Dolma 数据集、Tülu 3 后训练) | |
| 小尺寸实用派(≤ 30B) | |
| Google Gemma(2B–27B)· Mistral Ministral(3B–14B)· Xiaomi MiMo(7B)· Allen AI OLMo(7B–32B)· StepFun Step3-VL(10B)· Nemotron 3 Nano(30B / 3B A)· Qwen3.6-27B · Arcee Trinity Nano(6B / 1B A) | |
| 工具 / Agent 原生 | |
| Kimi K2 / K2.5(MuonClip + Agent Swarm)· GLM-4.5 / GLM-5(ARC + 异步 RL)· MiniMax-M2(Forge Agent RL,自我演化)· LongCat-Flash-Thinking · Claude Opus 4.x · Poolside Laguna | |
| 低比特 / 硬件原生训练 | |
| NVIDIA Nemotron 3(NVFP4 + LatentMoE)· DeepSeek-V4(FP4+FP8 混合)· Ant Ling 2.0(FP8 训练)· Apple AFM(2-bit QAT 端侧) | |
| Model-System Co-design | |
| StepFun Step-3(MFA + AFD)· DeepSeek V3/V4(FP8 训练 + DualPipe) | |
| 新型优化器 | |
| Moonshot MuonClip · DeepSeek V4 Muon · Arcee Trinity Muon · Ant Group Ling Scaling Laws | |
| Agentic Coding 专项 | |
| Qwen3-Coder / Qwen3.6 · Poolside Laguna · KAT-Coder-V2(快手)· IQuest-Coder · GLM-5.1 |
arXiv:所有论文编号、标题、提交日期均核对自 arXiv.org abstract 页面(逐条访问)** HuggingFace**:所有模型仓库 URL 均从对应机构官方 HF 组织页面或论文 / 官方博客内链接获取并访问确认官方博客 / System Card:直接从公司域名(anthropic.com、openai.com、x.ai、z.ai、mistral.ai、microsoft.ai、amazon.science、deepmind.com 等)访问确认时间列规则:- 有 arXiv 论文的条目:使用 arXiv v1 提交月份
- 仅 blog / System Card:使用官方发布日期
- 产品发布与 arXiv 提交不一致时(例如 GPT-5 产品 2025-08 / arXiv 2025-12),以括号形式并列标注
排行榜参考(访问日期 2026-04):
- 访问 arXiv 论文:
https://arxiv.org/abs/<编号>
(文档中所有链接均为可点击) - 访问 HuggingFace 模型:直接点击表格中的仓库链接
-
HF Papers 聚合(按 arXiv 编号搜索即可): https://huggingface.co/papers
-
本文档收录 基础语言模型主线论文与最重要的 System / Model Card,不含以下内容:- 专项模型(如 Qwen-Math、DeepSeek-Coder、DeepSeek-Prover、MiMo-VL、Qwen3-Coder、GLM-4.6V 等专精分支)
-
评估基准论文(如 Tülu、OpenInstruct 等)
-
纯应用类论文(如 Step-GUI、Step Deep Research、Project Mariner 等)
-
语音 / 图像 / 视频独立生成模型的完整历代(仅选代表作,如 LongCat-Image、Qwen3.5-Omni)
Part B尚未覆盖:Midjourney、Runway、Stability AI、Suno、11Labs、Perplexity 等以非 LLM 或以产品为核心的 AI 公司- 非公开技术文档的闭源模型(如部分政府 / 特定行业模型)不在收录范围
2026-05-28:大规模补充 2026-02 至 2026-05 新发布模型。新增:DeepSeek-V4(1.6T MoE)、Qwen3.5 / Qwen3.6 / Qwen3-Coder(混合 GDN+GA 架构)、MiniMax-M2(arXiv:2605.26494)、NVIDIA Nemotron 3 Super / Cascade 2 / Nano Omni、Poolside Laguna、Arcee Trinity、LG EXAONE 4.5、KAT-Coder-V2(快手)。总览表从 16 家扩至 19 家,arXiv 速查表新增 13 条,发布时间线延伸至 2026-05,选型指南与基准速览全面更新。2026-04-21:完成全量 arXiv 编号与 HuggingFace 链接的二次核对;新增 Claude Opus 4.6 / 4.7 条目;补充 GPT-5 System Card 的 arXiv 提交日期与产品发布日期的错位说明;修正 Step-3 论文标题大小写;完善"数据来源与核对方法"的时间列规则;Anthropic / OpenAI 透明度演化观察新增两行。
如发现链接失效、arXiv 编号错误、遗漏新发布模型,或希望扩充 License 列 / GitHub 列,请在对应表格 PR 中注明:
- 机构 & 系列
- arXiv 编号(若有)或官方 blog URL
- HuggingFace 仓库(若有)
- 核心技术贡献(≤ 1 句)
- 核对日期
按 arXiv ID 升序,便于交叉检索。仅收录 Part A + Part B 正文表格内 arXiv 论文。
| arXiv ID | 标题简写 | 机构 | 时间 |
|---|---|---|---|
| 2005.14165 | GPT-3(Few-Shot Learners) | OpenAI | 2020-05 |
| 2103.10360 | GLM | Zhipu / THUDM | 2021-03 |
| 2203.02155 | InstructGPT | OpenAI | 2022-03 |
| 2210.02414 | GLM-130B | Zhipu | 2022-10 |
| 2212.08073 | Constitutional AI | Anthropic | 2022-12 |
| 2302.13971 | LLaMA 1 | Meta | 2023-02 |
| 2303.08774 | GPT-4 Technical Report | OpenAI | 2023-03 |
| 2307.09288 | Llama 2 | Meta | 2023-07 |
| 2309.16609 | Qwen | Alibaba | 2023-09 |
| 2310.06825 | Mistral 7B | Mistral | 2023-10 |
| 2312.11805 | Gemini 1.0 | 2023-12 | |
| 2401.02954 | DeepSeek LLM | DeepSeek | 2024-01 |
| 2401.04088 | Mixtral of Experts | Mistral | 2024-01 |
| 2402.00838 | OLMo 1 | Ai2 | 2024-02 |
| 2402.16819 | Nemotron-4 15B | NVIDIA | 2024-02 |
| 2403.05530 | Gemini 1.5 | 2024-03 | |
| 2403.08295 | Gemma 1 | 2024-03 | |
| 2403.19887 | Jamba | AI21 Labs | 2024-03 |
| 2404.12387 | Reka Core / Flash / Edge | Reka AI | 2024-04 |
| 2405.04434 | DeepSeek-V2(MLA) | DeepSeek | 2024-05 |
| 2406.11704 | Nemotron-4 340B | NVIDIA | 2024-06 |
| 2406.12793 | ChatGLM | Zhipu | 2024-06 |
| 2407.10671 | Qwen2 | Alibaba | 2024-07 |
| 2407.21075 | Apple AFM 2024 | Apple | 2024-07 |
| 2407.21783 | The Llama 3 Herd | Meta | 2024-07 |
| 2408.00118 | Gemma 2 | 2024-07 | |
| 2411.02265 | Hunyuan-Large | Tencent | 2024-11 |
| 2412.15115 | Qwen2.5 | Alibaba | 2024-12 |
| 2412.16720 | OpenAI o1 System Card | OpenAI | 2024-12 |
| 2412.19437 | DeepSeek-V3 | DeepSeek | 2024-12 |
| 2501.00656 | OLMo 2 | Ai2 | 2025-01 |
| 2501.08313 | MiniMax-01(Lightning Attn) | MiniMax | 2025-01 |
| 2501.12599 | Kimi k1.5 | Moonshot | 2025-01 |
| 2501.12948 | DeepSeek-R1 (Nature 645) | ||
| DeepSeek | 2025-01 | ||
| 2503.05139 | Ling(Every FLOP Counts) | Ant Group | 2025-03 |
| 2503.19786 | Gemma 3 | 2025-03 | |
| 2504.00698 | Command A | Cohere | 2025-04 |
| 2504.03624 | Nemotron-H | NVIDIA | 2025-04 |
| 2504.07158 | Ring-lite(Compact Reasoning) | Ant Group | 2025-04 |
| 2504.13914 | Seed-Thinking v1.5 | ByteDance | 2025-04 |
| 2505.00949 | Llama-Nemotron | NVIDIA | 2025-05 |
| 2505.04519 | Pangu Ultra MoE | Huawei | 2025-05 |
| 2505.07608 | MiMo(Xiaomi 首款) | Xiaomi | 2025-05 |
| 2505.09388 | Qwen3 | Alibaba | 2025-05 |
| 2505.15431 | Hunyuan-TurboS | Tencent | 2025-05 |
| 2506.03569 | MiMo-VL | Xiaomi | 2025-06 |
| 2506.10910 | Magistral | Mistral | 2025-06 |
| 2506.12103 | Amazon Nova(arXiv 版) | Amazon | 2025-06 |
| 2506.13585 | MiniMax-M1 | MiniMax | 2025-06 |
| 2507.06261 | Gemini 2.5 | 2025-07 | |
| 2507.07145 | ERNIE 4.5 | Baidu | 2025-07 |
| 2507.13575 | Apple AFM 2025(PT-MoE) | Apple | 2025-07 |
| 2507.17702 | Ling Scaling Laws | Ant Group | 2025-07 |
| 2507.19427 | Step-3 | StepFun | 2025-07 |
| 2507.20534 | Kimi K2 | Moonshot | 2025-07 |
| 2508.06471 | GLM-4.5(ARC) | Z.ai | 2025-08 |
| 2508.10925 | gpt-oss-120b / 20b Card | OpenAI | 2025-08 |
| 2509.01322 | LongCat-Flash | Meituan | 2025-09 |
| 2510.22115 | Ling-1T / Ling 2.0 | Ant Group | 2025-10 |
| 2511.00279 | LongCat-Flash-Omni | Meituan | 2025-11 |
| 2512.02556 | DeepSeek-V3.2(DSA) | DeepSeek | 2025-12 |
| 2512.07584 | LongCat-Image | Meituan | 2025-12 |
| 2512.13961 | Olmo 3 | Ai2 | 2025-12 |
| 2512.20856 | Nemotron 3 | NVIDIA | 2025-12 |
| 2601.02780 | MiMo-V2-Flash | Xiaomi | 2026-01 |
| 2601.03267 | GPT-5 System Card | OpenAI | 2026-01(产品 2025-08) |
| 2601.08584 | Ministral 3 | Mistral | 2026-01 |
| 2601.09668 | STEP3-VL-10B | StepFun | 2026-01 |
| 2601.16725 | LongCat-Flash-Thinking-2601 | Meituan | 2026-01 |
| 2601.19134 | Nova 2.0 Lite 安全评估 | Amazon | 2026-01 |
| 2602.02276 | Kimi K2.5 | Moonshot | 2026-02 |
| 2602.04705 | ERNIE 5.0 | Baidu | 2026-02 |
| 2602.10604 | Step 3.5 Flash | StepFun | 2026-02 |
| 2602.15763 | GLM-5 | Z.ai | 2026-02 |
| 2602.17004 | Arcee Trinity | Arcee AI | 2026-02 |
| 2603.00729 | Qwen3-Coder-Next | Alibaba | 2026-02 |
| 2603.19220 | Nemotron-Cascade 2 | NVIDIA | 2026-03 |
| 2603.27703 | KAT-Coder-V2 | Kuaishou | 2026-03 |
| 2604.08644 | EXAONE 4.5 | LG AI Research | 2026-04 |
| 2604.12374 | Nemotron 3 Super | NVIDIA | 2026-04 |
| 2604.24954 | Nemotron 3 Nano Omni | NVIDIA | 2026-04 |
| 2605.26494 | MiniMax-M2 | MiniMax | 2026-05 |
| 2605.27605 | Laguna M.1 / XS.2 | Poolside | 2026-05 |