大模型榜单周报（2025/12/27）

予捻 · 2 小时前

1. 本周概览

本周大模型领域持续涌现创新成果，数学、编程和多模态能力均出现显著进展。字节推出数学模型Seed Prover 1.5，在国际数学奥林匹克竞赛中取得金牌线成绩，而智谱AI开源GLM-4.7在多项评测中超越GPT-5.1。MiniMax的M2.1编码模型以10B激活参数创下多语言软件工程能力新高，北航提出的代码模型Scaling Laws为最优数据配比提供理论基础。
2. 重点关注事件

字节发布数学模型Seed Prover 1.5，在16.5小时内解决IMO 2025前5道题目，失一题获得35分达到金牌线；在北美本科级别数学竞赛Putnam上大幅刷新SOTA成绩
智谱AI开源GLM-4.7，在AIME 25和人类最后考试（HLE）等基准中分数超GPT-5.1；SWE-Bench分数达73.8%（+5.8%），创开源新高
MiniMax发布旗舰级Coding & Agent模型M2.1，在Multi-SWE-bench榜单中以仅10B激活参数拿下49.4%成绩，超越Claude Sonnet 4.5等顶尖竞品，拿下全球SOTA
北航提出代码大模型的Scaling Laws，建立区分语言特性的Scaling Laws，并提出数学可解的最优数据配比方案，覆盖0.2B到14B参数规模及高达1T训练数据量，对七种主流语言进行系统性解构

3. 榜单变化

OpenRouter模型调用量：Grok Code Fast 1、Claude Sonnet 4.5、Gemini 2.5 Flash位列前三；小米MiMo-V2-Flash (free)新晋第4名；Gemini 3 Flash Preview新晋第6名；编程调用量方面，Grok Code Fast 1保持第1，KAT-Coder-Pro V1 (free)上升3名至第3，GPT-5.2下降5名至第7位
OpenRouter公司市占率：Google保持第1；xAI、Anthropic紧随其后；OpenAI市占率下降7.2%（17.7% → 10.5%）至第4位；DeepSeek份额上升1.8%（7.8% → 9.6%）保持第5名；小米份额占比7.0%，位列第7
大语言模型（Text Arena）：gemini-3-flash刷新成绩，超过Grok 4.1 thinking位列第2；ernie-5.0-preview-1203新晋第13名，超过gpt-5.2（评分基于预发布测试）
编程能力榜单（WebDev Arena）：glm-4.7新晋第6名，紧跟gemini-3-flash之后（评分基于预发布测试）
编程能力榜单（LiveCodeBench GSO Leaderboard）：Gemini-3-Flash新晋第8名，排名在O4-mini之后
图像编辑能力（Artificial Analysis Image Editing Leaderboard）：Reve V1新晋第8名，排名在Flux 2 Pro之后
文生图榜单（Artificial Analysis Text to Image Leaderboard）：ImagineArt 1.5 Preview超过Imagen 4 Preview位列第10名
前沿数学能力（EPOCH AI FrontierMath）：DeepSeek-V3.2以22.1%得分超过Kimi K2 Thinking位列第14名
GAIA榜单：SU Zero-Shuqian Series Pro MAX新晋榜首

4. OpenRouter排行榜

测评类型第一名第二名第三名模型调用量Grok Code Fast 1Claude Sonnet 4.5Gemini 2.5 Flash公司市占率GooglexAIAnthropic编程模型调用量Grok Code Fast 1GPT-5.2Claude Sonnet 4.5各公司按不同能力领域排名汇总

测评类型领先公司大语言模型 Text ArenaGoogle、xAI、Anthropic、OpenAI、阿里巴巴、百度、月之暗面、智谱编程能力 LMArenaAnthropic、OpenAI、Google编程能力 LiveCodeBenchOpenAI、Anthropic、Google代码工程任务能力 SWE-benchLite基于Claude、Gemini、GPT、Qwen、DeepSeek开发的开源系统图像编辑和生成能力 Image Edit ArenaOpenAI、Google、字节、Reve文生图能力 Text-to-Image ArenaOpenAI、Google、Black Forest Labs、腾讯、字节图像编辑和生成能力 Image Editing LeaderboardOpenAI、Google、Black Forest Labs、字节、Pruna AI文生图能力 Text to Image LeaderboardOpenAI、Google、Black Forest Labs、字节GPQAOpenAI、Google、xAI、Anthropic、阿里巴巴FrontierMathOpenAI、Google、月之暗面、Anthropic、xAIHumanity's Last ExamGoogle、OpenAI、AnthropicGAIAMicrosoft AI Asia -Ads、Suzhou AI Lab&Shuqian Tech、LR AILab of Lenovo CTO Org、NVIDIA、ZTE-AICloud、JoinAI、ShawnAgent、AIP agent等关注我，第一时间掌握更多AI前沿资讯！

来源：程序园用户自行投稿发布，如果侵权，请联系站长删除
免责声明：如果侵犯了您的权益，请联系站长，我们会及时删除侵权内容，谢谢合作！

账号		自动登录	找回密码
密码			立即注册

大模型榜单周报（2025/12/27）

相关帖子

签约作者

大模型榜单周报（2025/12/27）

相关帖子

相关推荐

签约作者