找回密码
 立即注册
首页 业界区 业界 解密Prompt系列68. 告别逐词蹦字 - 重塑 Transformer 的 ...

解密Prompt系列68. 告别逐词蹦字 - 重塑 Transformer 的推理范式

扎先 2026-1-15 14:10:03
Transformer 的核心范式一直是“Next Token Prediction”——像接龙一样,一个词一个词地往后蹦。虽然 OpenAI o1 和 DeepSeek-R1 通过 Chain of Thought (CoT) 开启了“慢思考”时代,但其本质依然是通过生成更多的显性 Token 来换取计算时间。
这就带来了一个巨大的效率悖论:为了想得深,必须说得多。这一章我们看四篇极具代表性的论文(Huginn, COCONUT, TRM, TiDAR),它们不约而同地试图打破这一局限:能否在不输出废话的情况下,让模型在内部“空转”思考? 甚至打破自回归的束缚,进行全局规划?
Hugin:内生循环思考提升深度



  • Scaling up Test-Time Compute with Latent Reasoning: A Recurrent Depth Approach
这篇论文的核心在于打破大模型推理时计算量恒定的限制,提出了一种在“深度”上进行循环的架构,从而实现了在隐空间(Latent Space)进行递归推理。

来源:程序园用户自行投稿发布,如果侵权,请联系站长删除
免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!

相关推荐

2026-1-15 19:40:36

举报

2026-1-22 14:10:15

举报

3 天前

举报

您需要登录后才可以回帖 登录 | 立即注册