找回密码
 立即注册
首页 业界区 业界 大模型榜单周报(2025/12/27)

大模型榜单周报(2025/12/27)

予捻 2 小时前
1. 本周概览

本周大模型领域持续涌现创新成果,数学、编程和多模态能力均出现显著进展。字节推出数学模型Seed Prover 1.5,在国际数学奥林匹克竞赛中取得金牌线成绩,而智谱AI开源GLM-4.7在多项评测中超越GPT-5.1。MiniMax的M2.1编码模型以10B激活参数创下多语言软件工程能力新高,北航提出的代码模型Scaling Laws为最优数据配比提供理论基础。
2. 重点关注事件


  • 字节发布数学模型Seed Prover 1.5,在16.5小时内解决IMO 2025前5道题目,失一题获得35分达到金牌线;在北美本科级别数学竞赛Putnam上大幅刷新SOTA成绩
  • 智谱AI开源GLM-4.7,在AIME 25和人类最后考试(HLE)等基准中分数超GPT-5.1;SWE-Bench分数达73.8%(+5.8%),创开源新高
  • MiniMax发布旗舰级Coding & Agent模型M2.1,在Multi-SWE-bench榜单中以仅10B激活参数拿下49.4%成绩,超越Claude Sonnet 4.5等顶尖竞品,拿下全球SOTA
  • 北航提出代码大模型的Scaling Laws,建立区分语言特性的Scaling Laws,并提出数学可解的最优数据配比方案,覆盖0.2B到14B参数规模及高达1T训练数据量,对七种主流语言进行系统性解构
3. 榜单变化


  • OpenRouter模型调用量:Grok Code Fast 1、Claude Sonnet 4.5、Gemini 2.5 Flash位列前三;小米MiMo-V2-Flash (free)新晋第4名;Gemini 3 Flash Preview新晋第6名;编程调用量方面,Grok Code Fast 1保持第1,KAT-Coder-Pro V1 (free)上升3名至第3,GPT-5.2下降5名至第7位
  • OpenRouter公司市占率:Google保持第1;xAI、Anthropic紧随其后;OpenAI市占率下降7.2%(17.7% → 10.5%)至第4位;DeepSeek份额上升1.8%(7.8% → 9.6%)保持第5名;小米份额占比7.0%,位列第7
  • 大语言模型(Text Arena):gemini-3-flash刷新成绩,超过Grok 4.1 thinking位列第2;ernie-5.0-preview-1203新晋第13名,超过gpt-5.2(评分基于预发布测试)
  • 编程能力榜单(WebDev Arena):glm-4.7新晋第6名,紧跟gemini-3-flash之后(评分基于预发布测试)
  • 编程能力榜单(LiveCodeBench GSO Leaderboard):Gemini-3-Flash新晋第8名,排名在O4-mini之后
  • 图像编辑能力(Artificial Analysis Image Editing Leaderboard):Reve V1新晋第8名,排名在Flux 2 Pro之后
  • 文生图榜单(Artificial Analysis Text to Image Leaderboard):ImagineArt 1.5 Preview超过Imagen 4 Preview位列第10名
  • 前沿数学能力(EPOCH AI FrontierMath):DeepSeek-V3.2以22.1%得分超过Kimi K2 Thinking位列第14名
  • GAIA榜单:SU Zero-Shuqian Series Pro MAX新晋榜首
4. OpenRouter排行榜

测评类型第一名第二名第三名模型调用量Grok Code Fast 1Claude Sonnet 4.5Gemini 2.5 Flash公司市占率GooglexAIAnthropic编程模型调用量Grok Code Fast 1GPT-5.2Claude Sonnet 4.5各公司按不同能力领域排名汇总

测评类型领先公司大语言模型 Text ArenaGoogle、xAI、Anthropic、OpenAI、阿里巴巴、百度、月之暗面、智谱编程能力 LMArenaAnthropic、OpenAI、Google编程能力 LiveCodeBenchOpenAI、Anthropic、Google代码工程任务能力 SWE-benchLite基于Claude、Gemini、GPT、Qwen、DeepSeek开发的开源系统图像编辑和生成能力 Image Edit ArenaOpenAI、Google、字节、Reve文生图能力 Text-to-Image ArenaOpenAI、Google、Black Forest Labs、腾讯、字节图像编辑和生成能力 Image Editing LeaderboardOpenAI、Google、Black Forest Labs、字节、Pruna AI文生图能力 Text to Image LeaderboardOpenAI、Google、Black Forest Labs、字节GPQAOpenAI、Google、xAI、Anthropic、阿里巴巴FrontierMathOpenAI、Google、月之暗面、Anthropic、xAIHumanity's Last ExamGoogle、OpenAI、AnthropicGAIAMicrosoft AI Asia -Ads、Suzhou AI Lab&Shuqian Tech、LR AILab of Lenovo CTO Org、NVIDIA、ZTE-AICloud、JoinAI、ShawnAgent、AIP agent等关注我,第一时间掌握更多AI前沿资讯!

来源:程序园用户自行投稿发布,如果侵权,请联系站长删除
免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!

相关推荐

您需要登录后才可以回帖 登录 | 立即注册