全阳霁 发表于 2026-1-15 14:10:03

解密Prompt系列68. 告别逐词蹦字 - 重塑 Transformer 的推理范式

Transformer 的核心范式一直是“Next Token Prediction”——像接龙一样,一个词一个词地往后蹦。虽然 OpenAI o1 和 DeepSeek-R1 通过 Chain of Thought (CoT) 开启了“慢思考”时代,但其本质依然是通过生成更多的显性 Token 来换取计算时间。
这就带来了一个巨大的效率悖论:为了想得深,必须说得多。这一章我们看四篇极具代表性的论文(Huginn, COCONUT, TRM, TiDAR),它们不约而同地试图打破这一局限:能否在不输出废话的情况下,让模型在内部“空转”思考? 甚至打破自回归的束缚,进行全局规划?
Hugin:内生循环思考提升深度



[*]Scaling up Test-Time Compute with Latent Reasoning: A Recurrent Depth Approach
这篇论文的核心在于打破大模型推理时计算量恒定的限制,提出了一种在“深度”上进行循环的架构,从而实现了在隐空间(Latent Space)进行递归推理。

来源:程序园用户自行投稿发布,如果侵权,请联系站长删除
免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!

窝酴 发表于 2026-1-23 03:40:16

感谢,下载保存了

敛饺乖 发表于 2026-1-25 08:53:35

谢谢分享,试用一下

溧久苟 发表于 2026-1-28 09:02:19

谢谢楼主提供!

阎怀慕 发表于 2026-1-30 05:42:22

感谢,下载保存了

钦遭聘 发表于 2026-2-2 03:59:34

新版吗?好像是停更了吧。

赶塑坠 发表于 2026-2-8 06:17:29

用心讨论,共获提升!

卜笑 发表于 2026-2-9 12:32:22

不错,里面软件多更新就更好了

列蜜瘘 发表于 2026-2-9 15:51:37

过来提前占个楼

洫伍俟 发表于 2026-2-9 22:50:57

新版吗?好像是停更了吧。

撵延兵 发表于 2026-2-11 03:01:34

分享、互助 让互联网精神温暖你我

穆望 发表于 2026-2-11 13:14:03

不错,里面软件多更新就更好了

懵径 发表于 2026-2-13 02:39:58

谢谢楼主提供!

葛雅隽 发表于 2026-2-25 12:41:07

这个好,看起来很实用

汤流婉 发表于 2026-3-7 09:52:32

过来提前占个楼

吁寂 发表于 2026-3-8 05:17:00

很好很强大我过来先占个楼 待编辑

神泱 发表于 2026-3-9 06:10:11

收藏一下   不知道什么时候能用到

恿深疏 发表于 2026-3-11 09:27:48

感谢分享,学习下。

存叭 发表于 4 天前

鼓励转贴优秀软件安全工具和文档!

谭皎洁 发表于 4 天前

不错,里面软件多更新就更好了
页: [1] 2
查看完整版本: 解密Prompt系列68. 告别逐词蹦字 - 重塑 Transformer 的推理范式