登录
/
注册
首页
论坛
其它
首页
科技
业界
安全
程序
广播
Follow
关于
导读
排行榜
资讯
发帖说明
登录
/
注册
账号
自动登录
找回密码
密码
登录
立即注册
搜索
搜索
关闭
CSDN热搜
程序园
精品问答
技术交流
资源下载
本版
帖子
用户
软件
问答
教程
代码
写记录
写博客
小组
VIP申请
VIP网盘
网盘
联系我们
发帖说明
道具
勋章
任务
淘帖
动态
分享
留言板
导读
设置
我的收藏
退出
腾讯QQ
微信登录
1
2
/ 2 页
下一页
返回列表
首页
›
业界区
›
业界
›
LLM | ARC-AGI:有趣的 benchmark
LLM | ARC-AGI:有趣的 benchmark
[ 复制链接 ]
锄淫鲷
2026-1-7 21:30:01
猛犸象科技工作室:
网站开发,备案域名,渗透,服务器出租,DDOS/CC攻击,TG加粉引流
ARC-AGI benchmark 提供了基于视觉网格的谜题,这些谜题是“对于人类简单、对于大模型困难”的问题。ARC-AGI 通过评测大模型解决这类问题的能力,来衡量大模型距通用智能的距离。
每个谜题仅提供少量示例,大模型需要基于这些示例,通过抽象推理,理解谜题的含义。(另一方面,示例较少也意味着训练数据集较少,即,ARC-AGI benchmark 不容易通过专门训练来刷点。)该 benchmark 测试模型识别 pattern 并将其快速应用于新情况的能力。
ARC-AGI 的主要评估指标是 Pass@2,它衡量模型在两次尝试内生成正确输出的能力。
示例:
(ARC-AGI-1)
(ARC-AGI-2)
如何解决 ARC-AGI 问题?ARC-AGI 团队在 Kaggle 上发布了相关竞赛,然而,由于训练数据过少,无法训出一个用于解决 ARC-AGI 问题的模型(这个思想也与考察模型通用推理能力的初衷相悖),因此在 2024 年 GPT 等模型兴起之前,基于深度学习的方法并未取得好的结果。
根据 ARC Prize 2024: Technical Report,在 2024 年度,ARC-AGI 的求解取得突破,主要使用了以下三种方法:
深度学习引导的程序合成:利用深度学习模型,特别是专门的代码 LLMs,来生成解决任务的程序,或对搜索程序的过程进行指导。
直推模型(transductive models)在测试时训练(test-time training,TTT):在给定的 ARC-AGI 任务规范上对 LLM 进行微调,以便将 LLM 的先验知识重新组合成一个新的模型,适应当前的任务。直推模型指的是,接收输入后直接输出结果,而非输出一个程序。
将程序合成与直推模型相结合:将上述两种方法合并为一个超级方法,因为据观察,这两种方法擅长解决不同类型的任务。
ARC-AGI 任务的官网:https://arcprize.org/
ARC-AGI-1/2/3 :
https://arcprize.org/arc-agi/1/
https://arcprize.org/arc-agi/2/
https://arcprize.org/arc-agi/3/
ARC-AGI-1/2 的榜单:https://arcprize.org/leaderboard
ARC Prize 2024: Technical Report:https://arxiv.org/html/2412.04604v1
相关博客:
像 AI 写的神秘博客:https://labs.adaline.ai/p/what-is-the-arc-agi-benchmark-and
知乎 · 机器之心 |「压缩即智能」得到实验验证,无需预训练和大量数据就能解决 ARC-AGI 问题:https://zhuanlan.zhihu.com/p/30426666081
知乎 | ARC-AGI 测试集对人工智能来说难在哪里?https://www.zhihu.com/question/7955529556/answer/65269819236
来源:程序园用户自行投稿发布,如果侵权,请联系站长删除
免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!
LLM
ARC
AGI
有趣
benchmark
相关帖子
AGI-Next前沿峰会「沉思报告」——中国AGI背后的产业逻辑与战略分野
收藏!LLM-RL训练框架:3大流派+6大框架,一文搞定
AI 学习笔记:LLM 的部署与测试
2026年的17个LLM应用场景
LLM应用测试,终于有了趁手武器?深度评测Product Hunt爆火的LLM Testing Tool
AI技术和大模型技术LLM
LLM 算法岗 | 八股问答(2)· 大模型训练流程与微调技术
PII与LLM隐私保护实战指南
LLM 算法岗 | 八股问答(3)· 强化学习与 RLHF
万字拆解 LLM 运行机制:Token、上下文与采样参数
回复
使用道具
举报
提升卡
置顶卡
沉默卡
喧嚣卡
变色卡
千斤顶
照妖镜
相关推荐
业界
AGI-Next前沿峰会「沉思报告」——中国AGI背后的产业逻辑与战略分野
18
636
艾晓梅
2026-01-13
业界
收藏!LLM-RL训练框架:3大流派+6大框架,一文搞定
19
140
卒挪
2026-01-20
业界
AI 学习笔记:LLM 的部署与测试
8
708
戎玉珂
2026-02-07
科技
2026年的17个LLM应用场景
10
452
琦谓
2026-02-22
科技
LLM应用测试,终于有了趁手武器?深度评测Product Hunt爆火的LLM Testing Tool
4
1260
湛恶
2026-02-24
安全
AI技术和大模型技术LLM
0
657
稼布欤
2026-03-08
安全
LLM 算法岗 | 八股问答(2)· 大模型训练流程与微调技术
0
46
乱蚣
2026-03-12
业界
PII与LLM隐私保护实战指南
0
266
嘀荼酴
2026-03-18
业界
LLM 算法岗 | 八股问答(3)· 强化学习与 RLHF
0
842
乙荒
2026-03-21
业界
万字拆解 LLM 运行机制:Token、上下文与采样参数
0
593
村亢
2026-03-30
回复
(29)
娥搽裙
2026-1-14 11:53:11
回复
使用道具
举报
照妖镜
猛犸象科技工作室:
网站开发,备案域名,渗透,服务器出租,DDOS/CC攻击,TG加粉引流
不错,里面软件多更新就更好了
祖柔惠
2026-1-18 20:01:53
回复
使用道具
举报
照妖镜
猛犸象科技工作室:
网站开发,备案域名,渗透,服务器出租,DDOS/CC攻击,TG加粉引流
分享、互助 让互联网精神温暖你我
俏挺喳
2026-1-19 02:22:31
回复
使用道具
举报
照妖镜
程序园永久vip申请,无限下载程序园所有程序/软件/数据/等
过来提前占个楼
讣丢
2026-1-20 09:20:56
回复
使用道具
举报
照妖镜
程序园永久vip申请,无限下载程序园所有程序/软件/数据/等
鼓励转贴优秀软件安全工具和文档!
零幸
2026-1-25 22:18:55
回复
使用道具
举报
照妖镜
程序园永久vip申请,无限下载程序园所有程序/软件/数据/等
过来提前占个楼
呶募妙
2026-1-26 10:40:29
回复
使用道具
举报
照妖镜
程序园永久vip申请,无限下载程序园所有程序/软件/数据/等
谢谢分享,试用一下
梁宁
2026-1-27 04:54:40
回复
使用道具
举报
照妖镜
猛犸象科技工作室:
网站开发,备案域名,渗透,服务器出租,DDOS/CC攻击,TG加粉引流
新版吗?好像是停更了吧。
吟氅
2026-1-28 04:05:46
回复
使用道具
举报
照妖镜
程序园永久vip申请,无限下载程序园所有程序/软件/数据/等
分享、互助 让互联网精神温暖你我
琦谓
2026-1-28 06:21:04
回复
使用道具
举报
照妖镜
猛犸象科技工作室:
网站开发,备案域名,渗透,服务器出租,DDOS/CC攻击,TG加粉引流
yyds。多谢分享
祉遛吾
2026-1-30 03:28:31
回复
使用道具
举报
照妖镜
程序园永久vip申请,无限下载程序园所有程序/软件/数据/等
感谢分享,下载保存了,貌似很强大
醋辛
2026-2-3 06:40:55
回复
使用道具
举报
照妖镜
猛犸象科技工作室:
网站开发,备案域名,渗透,服务器出租,DDOS/CC攻击,TG加粉引流
这个有用。
肿圬后
2026-2-5 07:55:42
回复
使用道具
举报
照妖镜
程序园永久vip申请,无限下载程序园所有程序/软件/数据/等
喜欢鼓捣这些软件,现在用得少,谢谢分享!
裴涛
2026-2-7 05:05:22
回复
使用道具
举报
照妖镜
程序园永久vip申请,无限下载程序园所有程序/软件/数据/等
过来提前占个楼
盗衍
2026-2-7 23:49:03
回复
使用道具
举报
照妖镜
猛犸象科技工作室:
网站开发,备案域名,渗透,服务器出租,DDOS/CC攻击,TG加粉引流
喜欢鼓捣这些软件,现在用得少,谢谢分享!
兜蛇
2026-2-8 10:38:38
回复
使用道具
举报
照妖镜
程序园永久vip申请,无限下载程序园所有程序/软件/数据/等
感谢分享,下载保存了,貌似很强大
博咱
2026-2-8 20:17:00
回复
使用道具
举报
照妖镜
程序园永久vip申请,无限下载程序园所有程序/软件/数据/等
感谢,下载保存了
裆趾针
2026-2-9 01:27:47
回复
使用道具
举报
照妖镜
猛犸象科技工作室:
网站开发,备案域名,渗透,服务器出租,DDOS/CC攻击,TG加粉引流
谢谢分享,试用一下
石娅凉
2026-2-10 08:12:31
回复
使用道具
举报
照妖镜
猛犸象科技工作室:
网站开发,备案域名,渗透,服务器出租,DDOS/CC攻击,TG加粉引流
感谢发布原创作品,程序园因你更精彩
颜才
2026-2-10 09:31:25
回复
使用道具
举报
照妖镜
猛犸象科技工作室:
网站开发,备案域名,渗透,服务器出租,DDOS/CC攻击,TG加粉引流
用心讨论,共获提升!
下一页 »
1
2
/ 2 页
下一页
高级模式
B
Color
Image
Link
Quote
Code
Smilies
您需要登录后才可以回帖
登录
|
立即注册
回复
本版积分规则
回帖并转播
回帖后跳转到最后一页
浏览过的版块
安全
签约作者
程序园优秀签约作者
发帖
锄淫鲷
2026-2-10 09:31:25
关注
0
粉丝关注
26
主题发布
板块介绍填写区域,请于后台编辑
财富榜{圆}
3934307807
991125
anyue1937
9994892
kk14977
6845359
4
xiangqian
638210
5
神泱
9524
6
韶又彤
9916
7
宋子
9882
8
荪俗
9020
9
闰咄阅
9999
10
刎唇
9999
查看更多
今日好文热榜
386
完整项目实战
370
Python 数据类型:数字、字符串与容器
454
Python 数据类型:数字、字符串与容器
662
Python 数据类型:数字、字符串与容器
516
Python 数据类型:数字、字符串与容器
358
Python 数据类型:数字、字符串与容器
605
Python 数据类型:数字、字符串与容器
437
Python 数据类型:数字、字符串与容器
837
Python 数据类型:数字、字符串与容器
69
Python 数据类型:数字、字符串与容器
624
Python 数据类型:数字、字符串与容器
151
Python 数据类型:数字、字符串与容器
761
Python 数据类型:数字、字符串与容器
511
Python 数据类型:数字、字符串与容器
937
Python 数据类型:数字、字符串与容器
803
Python 数据类型:数字、字符串与容器
967
Python 数据类型:数字、字符串与容器
276
Python 数据类型:数字、字符串与容器
35
从“救火”到“预判”:AIOps 如何用 AI 重
237
从“救火”到“预判”:AIOps 如何用 AI 重