大模型榜单周报（2026/02/15）

仲水悦 · 4 天前

1. 本周概览

本周大模型行业迎来多项重要发布与升级。ChatGPT启动广告测试，谷歌宣布对Gemini3 Deep Think进行重大升级，推出专门针对科学、研究与工程场景的"推理模式"。千问团队推进Qwen3.5系列模型发布，字节正式发布新一代视频创作模型Seedance2.0。DeepSeek上线新模型，上下文窗口提升至1M tokens，智谱上线并开源GLM-5，MiniMax上线最新旗舰模型M2.5。OpenRouter榜单出现重大变动，Kimi K2.5从第3名跃升至第1名，使用量翻倍增长125%，Moonshot超越OpenAI成为第三大厂商。Anthropic在多个能力榜单中表现强劲，Claude 4.6包揽编程能力榜单前两名，Text Arena榜单包揽前2名。
2. 重点关注事件

ChatGPT启动广告测试（2.10）：OpenAI开始在ChatGPT中测试广告功能，标志着商业化探索的新阶段。
谷歌宣布Gemini 3 Deep Think重大升级（2.12）：推出专门针对科学、研究与工程场景开发的"推理模式"，旨在推动智能前沿发展。
千问团队推进Qwen 3.5系列发布（2.9）：已向HuggingFace代码库提交相关支持PR，新系列模型即将面世。
字节正式发布Seedance 2.0（2.12）：新一代视频创作模型采用统一的多模态音视频联合生成架构，支持文字、图片、音频、视频四种模态输入，集成了目前业界最全面的多模态内容参考和编辑能力。
DeepSeek上线新模型（2.12）：核心升级包括上下文窗口上限提升至1M tokens，长上下文场景表现突出；整体响应速度明显提升；知识库截止日期显示为2025年5月。新模型仍为纯文本模型，不支持多模态输入。目前官方尚未发布正式公告。
智谱上线并开源GLM-5（2.12）：定位为面向复杂系统工程和长程Agentic任务的基座模型，在Coding与Agent能力上取得开源SOTA表现。
MiniMax上线M2.5旗舰模型（2.12）：最新旗舰模型现已开放访问，用户可通过Web端和桌面端的MiniMax Agent调用该模型。

3. 榜单变化

OpenRouter模型调用量排名

整体调用量：Kimi K2.5从第3名跃升至第1名，使用量翻倍增长125%，以1.52T tokens遥遥领先，是第2名的2倍多。Anthropic两个模型新入前十，Claude Opus 4.6入榜。Trinity Large Preview (free)作为免费模型增长81%。另外有两个模型跌出前十：Grok Code Fast 1（上期第8）和Claude Opus 4.5（上期第6，被4.6替代）。
模型市占率：Moonshot超越OpenAI，成为OpenRouter平台第三大厂商，与Google、Anthropic并立。Google虽然总量微增（1.58T→1.68T），但市场份额流失近1/6，从23%降到19%。MiniMax份额大增1.7%（4.7%→6.4%），tokens涨80%。
模型吞吐量：OpenAI gpt-oss 120B速度暴涨29%（447→576 tok/s），排名反超20B小模型。Meta 3款模型同时进入Top 10，成为入围最多的厂商，Llama 3.3 70B直接挤掉Google Gemini 2.5 Flash Lite，Llama 4系列（Maverick+Scout）双入榜。
编程调用量：Kimi在编程场景展现统治力，市占率30.8%，远超其在通用场景的12.6%份额，同时领先第二名近20个百分点。Claude Opus 4.6空降第3，按Anthropic整体下滑。上期Anthropic双模型（Opus 4.5 + Sonnet 4.5）合计16.6%，本期Anthropic双模型（Opus 4.6 + Sonnet 4.5）合计11.3%。

各领域能力榜单

大语言模型Text Arena：Anthropic包揽前2，终结了Google霸榜，分数突破1500分大关，"thinking"版本领先基础版6分。Kimi K2.5-thinking入榜，第18名（1447分）。GLM-5第11名（1452分），智谱成为新的中国质量代表。
编程能力榜单（Code Arena）：Claude 4.6霸榜前两名，分数突破1560分，较上期冠军（1500分）提升4.5%；Anthropic包揽前3（含4.5-thinking-32k），保持绝对统治。Google模型被GPT-5.2-high（第4）、GLM-5（第6）超越。智谱GLM-5成为本期最大黑马，直接杀入前6，分数1449分，超越Google Gemini 2.5 Pro。
文生图能力榜单（Artificial Analysis Text to Image Leaderboard）：xAI Grok空降第5，xAI首次进入图像生成Top 10，分数1190，超越字节Seedream 4.0（1189）和FLUX.2 [flex]（1184）。
理科能力榜单（GPQA LLM Stats）：无重要变化。
前沿数学能力榜单（EPOCH AI FrontierMath）：Anthropic 4.6代全面取代4.5代，3款配置全部进入Top 5。Google Gemini 3 Pro Preview下跌，从第4跌至第6。
HLE（Human's Last Exam）：无重要变化。

4. 排行榜

测评类型第一名第二名第三名模型调用量Kimi K2.5Gemini 3 Flash PreviewDeepSeek V3.2公司市占率GoogleAnthropicMoonShotai模型速度gpt-oss-safeguard-20bQwen3 32Bgpt-oss-120b编程模型调用量Kimi K2.5MiniMax M2.1Claude Opus 4.6各公司按不同能力领域排名汇总

测评类型领先公司大语言模型 Text ArenaAnthropic、Google、xAI、OpenAI编程能力 Code ArenaAnthropic、OpenAI、智谱、Google、Kimi编程能力 LiveCodeBenchAnthropic、OpenAI、Google代码工程任务能力 SWE-benchAnthropic、Google、OpenAI图像编辑和生成能力 Image Edit ArenaOpenAI、Google、xAI、字节、腾讯文生图能力 Text-to-Image ArenaOpenAI、Google、xAI、Black Forest Labs、腾讯图像编辑和生成能力 Image Editing LeaderboardOpenAI、Google、xAI、腾讯、字节、Black Forest Labs、阿里巴巴、Reve文生图能力 Text to Image LeaderboardOpenAI、Google、Black Forest Labs、xAI、字节GPQAOpenAI、Google、Anthropic、xAIFrontierMathOpenAI、Anthropic、Google、月之暗面、DeepSeekHumanity's Last ExamGoogle、OpenAI、Anthropic关注我，第一时间掌握更多AI前沿资讯！

来源：程序园用户自行投稿发布，如果侵权，请联系站长删除
免责声明：如果侵犯了您的权益，请联系站长，我们会及时删除侵权内容，谢谢合作！

账号		自动登录	找回密码
密码			立即注册

大模型榜单周报（2026/02/15）

相关帖子

签约作者

大模型榜单周报（2026/02/15）

相关帖子

相关推荐

签约作者