找回密码
 立即注册
首页 业界区 业界 大模型榜单周报(2026/02/15)

大模型榜单周报(2026/02/15)

仲水悦 4 天前
1. 本周概览

本周大模型行业迎来多项重要发布与升级。ChatGPT启动广告测试,谷歌宣布对Gemini3 Deep Think进行重大升级,推出专门针对科学、研究与工程场景的"推理模式"。千问团队推进Qwen3.5系列模型发布,字节正式发布新一代视频创作模型Seedance2.0。DeepSeek上线新模型,上下文窗口提升至1M tokens,智谱上线并开源GLM-5,MiniMax上线最新旗舰模型M2.5。OpenRouter榜单出现重大变动,Kimi K2.5从第3名跃升至第1名,使用量翻倍增长125%,Moonshot超越OpenAI成为第三大厂商。Anthropic在多个能力榜单中表现强劲,Claude 4.6包揽编程能力榜单前两名,Text Arena榜单包揽前2名。
2. 重点关注事件


  • ChatGPT启动广告测试(2.10):OpenAI开始在ChatGPT中测试广告功能,标志着商业化探索的新阶段。
  • 谷歌宣布Gemini 3 Deep Think重大升级(2.12):推出专门针对科学、研究与工程场景开发的"推理模式",旨在推动智能前沿发展。
  • 千问团队推进Qwen 3.5系列发布(2.9):已向HuggingFace代码库提交相关支持PR,新系列模型即将面世。
  • 字节正式发布Seedance 2.0(2.12):新一代视频创作模型采用统一的多模态音视频联合生成架构,支持文字、图片、音频、视频四种模态输入,集成了目前业界最全面的多模态内容参考和编辑能力。
  • DeepSeek上线新模型(2.12):核心升级包括上下文窗口上限提升至1M tokens,长上下文场景表现突出;整体响应速度明显提升;知识库截止日期显示为2025年5月。新模型仍为纯文本模型,不支持多模态输入。目前官方尚未发布正式公告。
  • 智谱上线并开源GLM-5(2.12):定位为面向复杂系统工程和长程Agentic任务的基座模型,在Coding与Agent能力上取得开源SOTA表现。
  • MiniMax上线M2.5旗舰模型(2.12):最新旗舰模型现已开放访问,用户可通过Web端和桌面端的MiniMax Agent调用该模型。
3. 榜单变化

OpenRouter模型调用量排名


  • 整体调用量:Kimi K2.5从第3名跃升至第1名,使用量翻倍增长125%,以1.52T tokens遥遥领先,是第2名的2倍多。Anthropic两个模型新入前十,Claude Opus 4.6入榜。Trinity Large Preview (free)作为免费模型增长81%。另外有两个模型跌出前十:Grok Code Fast 1(上期第8)和Claude Opus 4.5(上期第6,被4.6替代)。
  • 模型市占率:Moonshot超越OpenAI,成为OpenRouter平台第三大厂商,与Google、Anthropic并立。Google虽然总量微增(1.58T→1.68T),但市场份额流失近1/6,从23%降到19%。MiniMax份额大增1.7%(4.7%→6.4%),tokens涨80%。
  • 模型吞吐量:OpenAI gpt-oss 120B速度暴涨29%(447→576 tok/s),排名反超20B小模型。Meta 3款模型同时进入Top 10,成为入围最多的厂商,Llama 3.3 70B直接挤掉Google Gemini 2.5 Flash Lite,Llama 4系列(Maverick+Scout)双入榜。
  • 编程调用量:Kimi在编程场景展现统治力,市占率30.8%,远超其在通用场景的12.6%份额,同时领先第二名近20个百分点。Claude Opus 4.6空降第3,按Anthropic整体下滑。上期Anthropic双模型(Opus 4.5 + Sonnet 4.5)合计16.6%,本期Anthropic双模型(Opus 4.6 + Sonnet 4.5)合计11.3%。
各领域能力榜单


  • 大语言模型Text Arena:Anthropic包揽前2,终结了Google霸榜,分数突破1500分大关,"thinking"版本领先基础版6分。Kimi K2.5-thinking入榜,第18名(1447分)。GLM-5第11名(1452分),智谱成为新的中国质量代表。
  • 编程能力榜单(Code Arena):Claude 4.6霸榜前两名,分数突破1560分,较上期冠军(1500分)提升4.5%;Anthropic包揽前3(含4.5-thinking-32k),保持绝对统治。Google模型被GPT-5.2-high(第4)、GLM-5(第6)超越。智谱GLM-5成为本期最大黑马,直接杀入前6,分数1449分,超越Google Gemini 2.5 Pro。
  • 文生图能力榜单(Artificial Analysis Text to Image Leaderboard):xAI Grok空降第5,xAI首次进入图像生成Top 10,分数1190,超越字节Seedream 4.0(1189)和FLUX.2 [flex](1184)。
  • 理科能力榜单(GPQA LLM Stats):无重要变化。
  • 前沿数学能力榜单(EPOCH AI FrontierMath):Anthropic 4.6代全面取代4.5代,3款配置全部进入Top 5。Google Gemini 3 Pro Preview下跌,从第4跌至第6。
  • HLE(Human's Last Exam):无重要变化。
4. 排行榜

测评类型第一名第二名第三名模型调用量Kimi K2.5Gemini 3 Flash PreviewDeepSeek V3.2公司市占率GoogleAnthropicMoonShotai模型速度gpt-oss-safeguard-20bQwen3 32Bgpt-oss-120b编程模型调用量Kimi K2.5MiniMax M2.1Claude Opus 4.6各公司按不同能力领域排名汇总

测评类型领先公司大语言模型 Text ArenaAnthropic、Google、xAI、OpenAI编程能力 Code ArenaAnthropic、OpenAI、智谱、Google、Kimi编程能力 LiveCodeBenchAnthropic、OpenAI、Google代码工程任务能力 SWE-benchAnthropic、Google、OpenAI图像编辑和生成能力 Image Edit ArenaOpenAI、Google、xAI、字节、腾讯文生图能力 Text-to-Image ArenaOpenAI、Google、xAI、Black Forest Labs、腾讯图像编辑和生成能力 Image Editing LeaderboardOpenAI、Google、xAI、腾讯、字节、Black Forest Labs、阿里巴巴、Reve文生图能力 Text to Image LeaderboardOpenAI、Google、Black Forest Labs、xAI、字节GPQAOpenAI、Google、Anthropic、xAIFrontierMathOpenAI、Anthropic、Google、月之暗面、DeepSeekHumanity's Last ExamGoogle、OpenAI、Anthropic关注我,第一时间掌握更多AI前沿资讯!

来源:程序园用户自行投稿发布,如果侵权,请联系站长删除
免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!

相关推荐

您需要登录后才可以回帖 登录 | 立即注册