登录
/
注册
首页
论坛
其它
首页
科技
业界
安全
程序
广播
Follow
关于
导读
排行榜
资讯
发帖说明
登录
/
注册
账号
自动登录
找回密码
密码
登录
立即注册
搜索
搜索
关闭
CSDN热搜
程序园
精品问答
技术交流
资源下载
本版
帖子
用户
软件
问答
教程
代码
写记录
写博客
小组
VIP申请
VIP网盘
网盘
联系我们
发帖说明
道具
勋章
任务
淘帖
动态
分享
留言板
导读
设置
我的收藏
退出
腾讯QQ
微信登录
返回列表
首页
›
业界区
›
业界
›
LLM | ARC-AGI:有趣的 benchmark
LLM | ARC-AGI:有趣的 benchmark
[ 复制链接 ]
锄淫鲷
前天 21:30
程序园永久vip申请,500美金$,无限下载程序园所有程序/软件/数据/等
ARC-AGI benchmark 提供了基于视觉网格的谜题,这些谜题是“对于人类简单、对于大模型困难”的问题。ARC-AGI 通过评测大模型解决这类问题的能力,来衡量大模型距通用智能的距离。
每个谜题仅提供少量示例,大模型需要基于这些示例,通过抽象推理,理解谜题的含义。(另一方面,示例较少也意味着训练数据集较少,即,ARC-AGI benchmark 不容易通过专门训练来刷点。)该 benchmark 测试模型识别 pattern 并将其快速应用于新情况的能力。
ARC-AGI 的主要评估指标是 Pass@2,它衡量模型在两次尝试内生成正确输出的能力。
示例:
(ARC-AGI-1)
(ARC-AGI-2)
如何解决 ARC-AGI 问题?ARC-AGI 团队在 Kaggle 上发布了相关竞赛,然而,由于训练数据过少,无法训出一个用于解决 ARC-AGI 问题的模型(这个思想也与考察模型通用推理能力的初衷相悖),因此在 2024 年 GPT 等模型兴起之前,基于深度学习的方法并未取得好的结果。
根据 ARC Prize 2024: Technical Report,在 2024 年度,ARC-AGI 的求解取得突破,主要使用了以下三种方法:
深度学习引导的程序合成:利用深度学习模型,特别是专门的代码 LLMs,来生成解决任务的程序,或对搜索程序的过程进行指导。
直推模型(transductive models)在测试时训练(test-time training,TTT):在给定的 ARC-AGI 任务规范上对 LLM 进行微调,以便将 LLM 的先验知识重新组合成一个新的模型,适应当前的任务。直推模型指的是,接收输入后直接输出结果,而非输出一个程序。
将程序合成与直推模型相结合:将上述两种方法合并为一个超级方法,因为据观察,这两种方法擅长解决不同类型的任务。
ARC-AGI 任务的官网:https://arcprize.org/
ARC-AGI-1/2/3 :
https://arcprize.org/arc-agi/1/
https://arcprize.org/arc-agi/2/
https://arcprize.org/arc-agi/3/
ARC-AGI-1/2 的榜单:https://arcprize.org/leaderboard
ARC Prize 2024: Technical Report:https://arxiv.org/html/2412.04604v1
相关博客:
像 AI 写的神秘博客:https://labs.adaline.ai/p/what-is-the-arc-agi-benchmark-and
知乎 · 机器之心 |「压缩即智能」得到实验验证,无需预训练和大量数据就能解决 ARC-AGI 问题:https://zhuanlan.zhihu.com/p/30426666081
知乎 | ARC-AGI 测试集对人工智能来说难在哪里?https://www.zhihu.com/question/7955529556/answer/65269819236
来源:程序园用户自行投稿发布,如果侵权,请联系站长删除
免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!
LLM
ARC
AGI
有趣
benchmark
相关帖子
LLM驱动的多智能体心灵感应协作
LLM应用实践: NoteBookLM初次使用
LLM 工具调用的范式演进与认知模型集成
C#AI系列(7):从零开始LLM之Tokenizer实现
C#AI系列(7):从零开始LLM之Tokenizer实现
AgentScope深入分析-LLM&MCP
语义层面的SQL注入:LLM 提示词注入攻击深度拆解
250个LLM 评估基准大盘点!从推理到多模态,一文看懂LLM考试大纲
LogParser-LLM 前缀树算法实现
小白也能看懂的LLM-RL算法:PPO/DPO/GRPO/GSPO
回复
使用道具
举报
提升卡
置顶卡
沉默卡
喧嚣卡
变色卡
千斤顶
照妖镜
相关推荐
科技
LLM驱动的多智能体心灵感应协作
2
55
簑威龙
2025-12-11
业界
LLM应用实践: NoteBookLM初次使用
0
617
都淑贞
2025-12-15
业界
LLM 工具调用的范式演进与认知模型集成
2
389
万妙音
2025-12-16
业界
C#AI系列(7):从零开始LLM之Tokenizer实现
2
324
郜庄静
2025-12-21
业界
C#AI系列(7):从零开始LLM之Tokenizer实现
0
359
卜笑
2025-12-21
业界
AgentScope深入分析-LLM&MCP
2
338
济曝喊
2025-12-21
安全
语义层面的SQL注入:LLM 提示词注入攻击深度拆解
1
726
空娅芬
2025-12-26
业界
250个LLM 评估基准大盘点!从推理到多模态,一文看懂LLM考试大纲
0
346
卢铃语
2025-12-31
业界
LogParser-LLM 前缀树算法实现
0
632
乃阕饯
2026-01-03
业界
小白也能看懂的LLM-RL算法:PPO/DPO/GRPO/GSPO
0
841
舒菀菀
2026-01-09
高级模式
B
Color
Image
Link
Quote
Code
Smilies
您需要登录后才可以回帖
登录
|
立即注册
回复
本版积分规则
回帖并转播
回帖后跳转到最后一页
签约作者
程序园优秀签约作者
发帖
锄淫鲷
前天 21:30
关注
0
粉丝关注
21
主题发布
板块介绍填写区域,请于后台编辑
财富榜{圆}
3934307807
991124
anyue1937
9994891
kk14977
6845358
4
xiangqian
638210
5
韶又彤
9993
6
宋子
9978
7
闰咄阅
9993
8
刎唇
9993
9
俞瑛瑶
9998
10
蓬森莉
9946
查看更多
今日好文热榜
555
【节点】[Channel-Combine节点]原理解析与
799
为什么豪掷4800万美元,华为一点儿都不心疼
296
vxe-table 个性化列自定义列弹出层修改高度
206
当数据库世界重新讨论文件格式:TsFile 与
221
IDEA 出现重大 Bug!不要升级!不要升级!
654
FastAPI依赖注入深度指南:从基础依赖到预
829
举个栗子:做个AI Gateway demo
945
广州旗引科技:以技术创新驱动企业获客升级
702
三维扫描仪环境光会不会影响扫描?环境适应
992
AgentRun 实战:快速构建 AI 舆情实时分析
861
【睿擎派】OPC-UA远程操控S7-1200
123
学中医理疗不只是 “考证上班”:在家给爸
991
3D-AIGC 存储架构演进:从 NFS、GlusterFS
396
报错解决:git clone git@github.com: Perm
312
GLM-4.7 可以平替 Claude Code 的国产编码
341
剑指offer-61、序列化二叉树
466
【节点】[NormalUnpack节点]原理解析与实际
986
盘点2026年全球主流的5款原型设计工具:优
791
2026年邮件群发平台精选推荐
560
定长分块