算力救不了AI智商？谷歌新大招终结「随机鹦鹉」争论！

传统AI模型在稀疏奖励环境中，往往会找不到激励难以学会层次化思考。如今，谷歌团队通过引入元控制器操控模型内部残差流，让智能体学会了「跳跃式思考」。该研究揭示了大模型内部可自发形成了类似人脑的层次化决策机制，为AI在需要多步的复杂任务提供了全新的训练范式。

AI智能体最大的「硬伤」，是算力不够？

并不是，奖励太少、路太长才是。

在稀疏奖励的长序列任务里，传统token-by-token探索像蒙眼走迷宫：没有路标、没有提示，只有走到终点才知道对不对。

结果就是一个尴尬现实：想让智能体做点复杂事，往往必须外挂规划器「扶着走」。

而谷歌这项研究直接换打法：在迷宫里要求智能体按顺序踏过一串彩色子目标，且只有全程无误才给奖励——用最残酷的稀疏奖励，逼出真正的层次化决策能力。

真正的突破在于：他们不再只优化输出，而是开始操控模型内部的「认知过程」。

在稀疏奖励下，

智能体如何高效探索

传统的大模型，依赖逐词生成（token-by-token）的探索方式，而这对于需要多个正确步骤才能获得奖励的复杂任务，由于奖励稀疏，导致智能体难以完成需要层次化决策的长序列任务。

这好比让一个人蒙着眼睛走迷宫，只有到达终点才能获得反馈，期间没有任何指引，不论这个人尝试多少次也找不到出口。

这导致当下的大模型智能体需要外带一个规划器，才能完成复杂的，需要多步才能完成的任务。而谷歌这项研究做的，就是让智能体在迷宫中，按特定顺序访问一系列彩色位置（子目标），且只有在完全正确的序列完成后才能获得奖励。

算力救不了AI智商？谷歌新大招终结「随机鹦鹉」争论！

图1：智能体需要在迷宫中按顺序走过不同颜色的方块

这种「组合式任务」要求智能体必须掌握层次化解决问题的能力，不止需要低级的运动控制技能，又需要高级的时序规划能力。

这就如同人类搬运水杯的任务，相当于执行「拿起水杯→走到桌前→放下水杯」这样的连贯动作。

「大脑中的大脑」

AI自我发现抽象动作

那谷歌团队是如何解决稀疏奖励带来的问题的？

答案是元控制器（Metacontroller）。

元控制器通过接收基模型的残差流，能够生成一系列简单的内部控制器。

每个控制器对应一个时序抽象动作，每个时序抽象动作对应一个时间轴，并附带终止条件。通过按时间组合多个控制器，智能体能够在新任务上实现高效探索。

算力救不了AI智商？谷歌新大招终结「随机鹦鹉」争论！

每日新闻更多>>