现在无论是数码产品手机、电脑、CPU、GPU等或是大模型跑分是一个永恒不变的流程,虽然现在不少厂商针对跑分进行了专门的“优化”,但跑分目前还是相对客观评价一个硬件产品或是软件产品的手段。
不服? 来跑个分。
跑分的专业术语是评测、评估。大模型评估对通用大模型很重要,对垂直模型一样很重要,一个垂直模型在其垂直领域内的能力要比通用模型好才有其存在的意义。如一个7B微调的法律模型如其在法律领域能力还比不上7B的通用模型就没有存在的意义。
评估微调模型的能力同样需要进行跑分从一个相对客观的角度评估模型是否达到预先设定的目标。
文章下面先简单介绍大模型评估的一些背景知识,后通过评估Qwen3-0.6B、1.7B、4B、8B以及LawLLM-7B,五个模型中三个为通用模型,一个为基于Qwen2.5-7B经过微调的垂直领域模型。看看不同规模比较新的通用模型能否战胜一个比较老的垂直法律模型。
大模型评估
在大模型领域也比较流行跑分,每次各家厂商发布新模型同时也会公布其在某某榜单的分数,在N个领域基准评估排名是多少。
目前行业公认基准评估评测集如下:
MMLU Pro 通用知识推理 多学科专业级理解(数学、物理、历史等) MMLU升级版,题目更复杂,选项从4个增至10个
GPQA Diamond 高级科学推理 物理/化学/生物等研究生级问题 "Google-proof"设计,防止搜索直接得答案,极难
SWE-bench Verified 软件工程 解决真实GitHub代码问题 人工验证版本,评估工程实践能力而非简单代码补全
MATH-500 数学推理 500道高难度数学竞赛题 需复杂推导和计算,测试数学思维
AIME 2024 数学竞赛 美国数学邀请赛真题 顶级高中数学竞赛,难度极高
LiveCodeBench 代码生成 动态更新的算法题与编程任务 防数据污染,测试实时编程与算法解决能力
这六个领域是每个头部大模型厂商新模型必跑的分。还有一些其他数据集如MT-Bench、P2L等。还有针对Agent的评估如:AgentBench。
模型竞技场
比较出名的平台有:LMArena、CompassArena等
相对于学术领域基准评测比较容易被针对性“优化”,还有一个业内比较权威的模型评测榜单LMArena。模型竞技场排名与针对领域基准数据集的跑分模式完全不一样,基准数据集是公开的如果模型在训练阶段加入了部分数据就可能会影响到他的跑分结果。
LMArena这类模型竞技场核心是依靠用于进行打分,用于规模越大活跃度越高其越权威。也是局限性就是收到用户群体偏好的影响。
LMArena评测机制:
1、双盲对战: 用户提问,平台随机展示两个匿名模型的回答,用户投票选择更优答案,投票结束后才揭示模型身份
2、Bradley-Terry统计模型: 将投票率转换为实力得分,控制样本量和匹配次数的偏差
3、动态更新: 根据用户投票持续更新
法律领域
目前针对法律领域的模型评估数据集MMLU/MMLU Pro虽然有覆盖法律学科,但这跟国内的法律还不一样。CMMLU、C-Eval 倒是覆盖了国内法律领域知识,但这类综合性的评估数据集覆盖了几十个学科法律只是其小部分数据集,对法律垂直领域内的知识覆盖面不够。目前国内法律领域的专门评测数据集有:LawBench、LAiW,下面将使用LawBench数据集用于模型的评估。
LawBench数据集包括20种不同任务,覆盖三个认知水平:
1、法律知识记忆: 包括法律概念、术语、法条和事实。
2、法律知识理解: 法律文本中的实体、事件和关系,从而理解法律文本的意义和内涵。
3、法律知识应用: 能否正确利用其法律知识、对其进行推理从而解决下游应用中的现实法律任务。
LawBench每类任务包括500个问题,试题类型包括:生成、单选、多选、抽取、回归。五种不同类型的问题。数据集总规模为1W。提供了Zero-Shot(零样本)、One-Shot(单样本)两种类型的数据集。
评估的分数计算通常有两种模式。基于规则的评估(Rule-based):使用确定性规则或脚本自动判断模型输出是否正确。基于LLM Judge的评估(LLM-as-Judge):使用另一个大语言模型作为"裁判"来评估答案质量。
下面分别使用Qwen3-0.6B、1.7B、4B、8B以及LawLLM-7B评估本数据集,本次使用的是基于规则的评估。LawLLM-7B为基于Qwen2.5微调的法律垂直领域模型。
参数统一为top_k=20,temperature=0.6,top_p=0.95,do_sample=True
认知任务法律知识记忆法条背诵、知识问答法律知识理解文件校对、纠纷焦点识别、婚姻纠纷鉴定、问题主题识别、阅读理解命名实体识别、舆情摘要、论点挖掘、事件检测、触发词提取法律知识应用法条预测(基于事实)、法条预测(基于场景)、罪名预测、刑期预测(无法条内容)刑期预测(给定法条内容)、案例分析、犯罪金额计算、咨询
评测结果分析
本数据集在19项任务中,13项任务(68%)非思考模式表现更优 ,思考模式仅在6项任务(32%)中效果更好。
思考模式增益公式:Δ = 8B得分 - 8B-no_think得分
思考模式真正有效的任务(Δ > 2)
任务Δ值任务类型成功原因刑事损害赔偿计算+25.2数值推理复杂多步计算需逻辑链支撑触发词提取+12.7事件理解深度语义理解提升事件边界识别基于事实的法条预测+4.5知识推理事实-法条映射需中间推理步骤事件检测+4.4内容理解全局上下文分析减少误检非思考模式碾压性优势的任务(Δ < -5)
任务Δ值任务类型失败原因案例分析-16.4生成任务过度思考导致生成内容冗余发散论点挖掘-16.0信息抽取深度思考引入噪声而非精准定位命名实体识别-14.9抽取任务思考模式破坏实体边界快速匹配知识问答-14.4信息检索过度推理偏离直接答案争议焦点识别-9.6精确判断思考引发发散,损害判断锐度刑期预测(有法条)-7.5数值计算思考增加复杂度,数值计算需"直给"刑期预测(无法条)-5.7数值计算同上规模效应真实表现
强正规模效应任务(0.6B→8B提升>50%)
- 基于事实的法条预测:+383%(16.24→78.46)——事实-法律映射能力随参数量爆炸式增长
- 罪名预测:+95%(28.00→54.50)——罪名认定依赖复杂特征学习
- 知识问答:+75%(29.00→50.80)——知识密度与参数规模强相关
- 刑事损害赔偿计算:+53%(61.40→94.00)——数学能力与规模正相关
<strong>规模效应饱和任务(4B→8B提升 |