本周大模型行业呈现多维度竞争格局,模型调用量榜单出现显著变化,Google Gemini 3 Flash Preview强势登顶,Kimi K2.5爆发式增长。各大厂商密集发布新模型,OpenAI推出GPT-5.3-Codex编码模型,Anthropic发布Claude Opus 4.6,美团推出多模态统一大模型方案STAR,快手可灵AI发布3.0版本,上海AI实验室发布书生Intern-S1-Pro。编程能力榜单中,Kimi K2.5-thinking成为国产编程模型榜首。前沿数学能力榜单出现重大调整,Claude Opus 4.5 (no thinking)成绩暴增跃居前三。
2. 重点关注事件
文生图能力榜单(Artificial Analysis Text to Image Leaderboard):FLUX.2 [dev] Turbo分数超过Nano Banana,二者排名易位,分别排名9、10。
理科能力榜单(GPQA LLM Stats):Claude Opus 4.6以91.3%的得分排名第4位,仅次于GPT-5.2 Pro、GPT 5.2和Gemini 3 Pro。
前沿数学能力榜单(EPOCH AI FrontierMath):Claude Opus 4.5 (no thinking)成绩暴增跃居前三,从上周五第16位(准确率20.7%,60/290)飙升至本周第3位(38.3%,111/290),准确率提升17.6个百分点;其次是Kimi K2.5 (Fireworks)新进入前十榜单,以27.9%(81/290)排名第10,取代了同系列的Kimi K2 Thinking(21.4%,第15位)。
GAIA测试集榜单:LR AILab of Lenovo CTO Org发布的Lemon agent登顶首位。
4. 排行榜
测评类型第一名第二名第三名模型调用量Gemini 3 Flash PreviewClaude Sonnet 4.5Kimi K 2.5公司市占率GoogleAnthropicOpenAI模型速度gpt-oss-safeguard-20bQwen3 32Bgpt-oss-20b编程模型调用量Kimi K 2.5MiniMax M2.1Grok Code Fast 1各公司按不同能力领域排名汇总
测评类型领先公司大语言模型 Text ArenaGoogle、xAI、Anthropic、百度、OpenAI、智谱、阿里巴巴、月之暗面编程能力 Code ArenaAnthropic、OpenAI、Google、智谱、MiniMax编程能力 LiveCodeBenchOpenAI、Anthropic、Google代码工程任务能力 SWE-benchLite基于Claude、Gemini、GPT、Qwen、DeepSeek开发的开源系统图像编辑和生成能力 Image Edit ArenaOpenAI、Google、字节、腾讯、Black Forest Labs、Reve文生图能力 Text-to-Image ArenaOpenAI、Google、Black Forest Labs、腾讯图像编辑和生成能力 Image Editing LeaderboardOpenAI、Google、字节、Black Forest Labs、阿里巴巴、Reve文生图能力 Text to Image LeaderboardOpenAI、Google、Black Forest Labs、字节、FalGPQAOpenAI、Google、Anthropic、xAI、阿里巴巴FrontierMathOpenAI、Google、Anthropic、DeepSeek、月之暗面、xAIHumanity's Last ExamGoogle、OpenAI、AnthropicGAIALR AILab of Lenovo CTO Org、JoinAI、Nvidia、Suzhou AI Lab&Shuqian Tech、Microsoft AI Asia -Ads、ShawnAgent、ZTE-AICloud关注我,第一时间掌握更多AI前沿资讯!