大模型榜单周报（2026/02/08）

孙淼淼 · 2026-2-11 22:30:13

1. 本周概览

本周大模型行业呈现多维度竞争格局，模型调用量榜单出现显著变化，Google Gemini 3 Flash Preview强势登顶，Kimi K2.5爆发式增长。各大厂商密集发布新模型，OpenAI推出GPT-5.3-Codex编码模型，Anthropic发布Claude Opus 4.6，美团推出多模态统一大模型方案STAR，快手可灵AI发布3.0版本，上海AI实验室发布书生Intern-S1-Pro。编程能力榜单中，Kimi K2.5-thinking成为国产编程模型榜首。前沿数学能力榜单出现重大调整，Claude Opus 4.5 (no thinking)成绩暴增跃居前三。
2. 重点关注事件

OpenAI发布GPT-5.3-Codex编码模型（2.6）：融合GPT-5.2推理能力与GPT-5.2-Codex编码性能，运行速度提升25%，支持终端操作与长期任务。该模型曾参与自身训练调试，被定为首个"高"网络安全风险等级。
Anthropic发布Claude Opus 4.6（2.6）：显著提升编码、推理与代理任务能力，首创百万token上下文窗口。Terminal-Bench 2.0等评测领先，GDPval-AA超GPT-5.2达144 Elo分，定价维持$5/$25每百万token不变。
美团推出多模态统一大模型方案STAR（2.4）：凭借创新的"堆叠自回归架构 + 任务递进训练"双核心设计，GenEval突破0.91，实现了"理解能力不打折、生成能力达顶尖"的双重突破。
快手可灵AI发布3.0版本（2.4）：推出视频3.0与Omni模型，支持智能分镜、图生视频+主体参考、多语种对口型、15秒长视频生成。
上海AI实验室发布书生Intern-S1-Pro（2.4）：核心科学能力实现跃升，高难度综合学科评测稳居AI4S领域国际领先水平，复杂数理逻辑推理能力达奥赛金牌水平，面向真实科研流程的智能体能力位居开源模型第一梯队。

3. 榜单变化

OpenRouter模型调用量排名

整体调用量：Google Gemini 3 Flash Preview强势登顶，从上周第2位（580B tokens，14%增长）跃升至本周第1位（791B tokens，36%增长），反超Claude Sonnet 4.5成为榜首；Claude Sonnet 4.5退居次席，从上周第1位（766B tokens，15%增长）降至本周第2位（727B tokens，5%增长），环比调用量绝对值减少39B tokens；Kimi K2.5爆发式增长新入前三，本周以673B tokens和350%的增长率位列第3，而上周未进入前十榜单；Grok Code Fast 1大幅下滑，从上周第3位（477B tokens，12%增长）骤降至本周第8位（336B tokens，下降30%），排名下跌5位；MiniMax M2.1高速增长新入榜，本周以371B tokens和115%的增长率位列第7，上周未在榜单中。
模型市占率：MoonshotAI爆发式攀升，从上周203B tokens（3.5%，第7位）暴涨至本周606B tokens（8.8%，第5位），份额增长5.3个百分点，排名上升2位；x-ai大幅下滑，从上周719B tokens（12.3%，第4位）骤降至本周587B tokens（8.6%，第6位），份额减少3.7个百分点；MiniMax强势入榜，本周以323B tokens（4.7%）新进入前十榜单第7位；三大巨头份额齐降，Google保持第1但份额从24%降至23%，Anthropic保持第2但份额从17.1%降至15.4%，OpenAI保持第3但份额从14%降至13.4%；DeepSeek稳中有进，从上周553B tokens（9.4%，第5位）增至本周651B tokens（9.5%，第4位），超越x-ai上升1位。
模型吞吐量：gpt-oss-120b速度大幅回落，从上周第2位（836 tok/s）骤降至本周第4位（447 tok/s），速度下降46%；Llama 3.1 8B Instruct性价比跃升，从上周第9位（Cerebras提供，203 tok/s，0.10/M）升至本周第6位（Groq提供，306tok/s，0.05/M），速度提升51%且价格降低50%；两款模型跌出前十，上周第5位的Llama 3.3 70B Instruct（265 tok/s）和第8位的Qwen3 Next 80B（233 tok/s）本周退出榜单；两款模型入榜，Llama 4 Maverick（第8位，181 tok/s）和Mistral Small Creative（第9位，180 tok/s）新进入前十；Gemini 2.5 Flash Lite Preview持续提速，从上周第10位（169 tok/s）升至本周第7位（221 tok/s），速度提升31%。
编程调用量：Kimi K2.5爆发式增长登顶，从上周第4位（139B tokens，8.9%）暴涨至本周第1位（463B tokens，25.2%），份额激增16.3个百分点；Grok Code Fast 1大幅下滑，从上周榜首（255B tokens，16.4%）骤降至本周第3位（173B tokens，9.4%），份额减少7个百分点；MiniMax M2.1快速攀升，从上周第6位（115B tokens，7.4%）跃升至本周第2位（226B tokens，12.3%），份额增长4.9个百分点；Claude双模型份额齐降，Claude Sonnet 4.5从第2位（12.3%）降至第5位（7.9%），Claude Opus 4.5从第3位（10.0%）降至第4位（8.7%）；GPT-5.2持续收缩，从第8位（61.4B tokens，3.9%）降至第9位（38.7B tokens，2.1%），同时https://www.arcee.ai/发布的400B参数稀疏MoE开源模型Trinity Large Preview (free)新进入前十榜单，排名第7位。

各领域能力榜单

编程能力榜单（Code Arena）：Kimi K2.5-thinking新晋榜单第5位，仅次于御三家的模型，成为国产编程模型榜首。
文生图能力榜单（Artificial Analysis Text to Image Leaderboard）：FLUX.2 [dev] Turbo分数超过Nano Banana，二者排名易位，分别排名9、10。
理科能力榜单（GPQA LLM Stats）：Claude Opus 4.6以91.3%的得分排名第4位，仅次于GPT-5.2 Pro、GPT 5.2和Gemini 3 Pro。
前沿数学能力榜单（EPOCH AI FrontierMath）：Claude Opus 4.5 (no thinking)成绩暴增跃居前三，从上周五第16位（准确率20.7%，60/290）飙升至本周第3位（38.3%，111/290），准确率提升17.6个百分点；其次是Kimi K2.5 (Fireworks)新进入前十榜单，以27.9%（81/290）排名第10，取代了同系列的Kimi K2 Thinking（21.4%，第15位）。
GAIA测试集榜单：LR AILab of Lenovo CTO Org发布的Lemon agent登顶首位。

4. 排行榜

测评类型第一名第二名第三名模型调用量Gemini 3 Flash PreviewClaude Sonnet 4.5Kimi K 2.5公司市占率GoogleAnthropicOpenAI模型速度gpt-oss-safeguard-20bQwen3 32Bgpt-oss-20b编程模型调用量Kimi K 2.5MiniMax M2.1Grok Code Fast 1各公司按不同能力领域排名汇总

测评类型领先公司大语言模型 Text ArenaGoogle、xAI、Anthropic、百度、OpenAI、智谱、阿里巴巴、月之暗面编程能力 Code ArenaAnthropic、OpenAI、Google、智谱、MiniMax编程能力 LiveCodeBenchOpenAI、Anthropic、Google代码工程任务能力 SWE-benchLite基于Claude、Gemini、GPT、Qwen、DeepSeek开发的开源系统图像编辑和生成能力 Image Edit ArenaOpenAI、Google、字节、腾讯、Black Forest Labs、Reve文生图能力 Text-to-Image ArenaOpenAI、Google、Black Forest Labs、腾讯图像编辑和生成能力 Image Editing LeaderboardOpenAI、Google、字节、Black Forest Labs、阿里巴巴、Reve文生图能力 Text to Image LeaderboardOpenAI、Google、Black Forest Labs、字节、FalGPQAOpenAI、Google、Anthropic、xAI、阿里巴巴FrontierMathOpenAI、Google、Anthropic、DeepSeek、月之暗面、xAIHumanity's Last ExamGoogle、OpenAI、AnthropicGAIALR AILab of Lenovo CTO Org、JoinAI、Nvidia、Suzhou AI Lab&Shuqian Tech、Microsoft AI Asia -Ads、ShawnAgent、ZTE-AICloud关注我，第一时间掌握更多AI前沿资讯！

来源：程序园用户自行投稿发布，如果侵权，请联系站长删除
免责声明：如果侵犯了您的权益，请联系站长，我们会及时删除侵权内容，谢谢合作！

梳踟希 · 2026-2-12 05:12:06

谢谢分享，试用一下

少屠 · 2026-2-12 22:01:14

感谢发布原创作品，程序园因你更精彩

艾曼语 · 4 天前

东西不错很实用谢谢分享

账号		自动登录	找回密码
密码			立即注册

大模型榜单周报（2026/02/08）

相关帖子

回复

浏览过的版块

签约作者

大模型榜单周报（2026/02/08）

相关帖子

相关推荐

端侧大模型实践 - 生成预测模型&模型轻量化&端侧部署

端侧大模型实践 - 生成预测模型&模型轻量化&端侧部署

端侧大模型实践 - 生成预测模型&模型轻量化&端侧部署

端侧大模型实践 - 生成预测模型&模型轻量化&端侧部署

端侧大模型实践 - 生成预测模型&模型轻量化&端侧部署

OpenCSG（开放传神）赋能MiniCPM4：以高质量数据工程驱动端侧大模型性能与效率双突破

大模型榜单周报（2026/02/15）

回复

浏览过的版块

签约作者