登录
首页 > 品牌解读 > 算力救不了AI智商?谷歌新大招终结「随机鹦鹉」争论!

算力救不了AI智商?谷歌新大招终结「随机鹦鹉」争论!

发布时间:2026-02-27 16:46:58

传统AI模型在稀疏奖励环境中,往往会找不到激励难以学会层次化思考。如今,谷歌团队通过引入元控制器操控模型内部残差流,让智能体学会了「跳跃式思考」。该研究揭示了大模型内部可自发形成了类似人脑的层次化决策机制,为AI在需要多步的复杂任务提供了全新的训练范式。

AI智能体最大的「硬伤」,是算力不够?

并不是,奖励太少、路太长才是

在稀疏奖励的长序列任务里,传统token-by-token探索像蒙眼走迷宫:没有路标、没有提示,只有走到终点才知道对不对。

结果就是一个尴尬现实:想让智能体做点复杂事,往往必须外挂规划器「扶着走」。

而谷歌这项研究直接换打法:在迷宫里要求智能体按顺序踏过一串彩色子目标,且只有全程无误才给奖励——用最残酷的稀疏奖励,逼出真正的层次化决策能力。

真正的突破在于:他们不再只优化输出,而是开始操控模型内部的「认知过程」

在稀疏奖励下,

智能体如何高效探索

传统的大模型,依赖逐词生成(token-by-token)的探索方式,而这对于需要多个正确步骤才能获得奖励的复杂任务,由于奖励稀疏,导致智能体难以完成需要层次化决策的长序列任务。

这好比让一个人蒙着眼睛走迷宫,只有到达终点才能获得反馈,期间没有任何指引,不论这个人尝试多少次也找不到出口。

这导致当下的大模型智能体需要外带一个规划器,才能完成复杂的,需要多步才能完成的任务。而谷歌这项研究做的,就是让智能体在迷宫中,按特定顺序访问一系列彩色位置(子目标),且只有在完全正确的序列完成后才能获得奖励。

图1:智能体需要在迷宫中按顺序走过不同颜色的方块

这种「组合式任务」要求智能体必须掌握层次化解决问题的能力,不止需要低级的运动控制技能,又需要高级的时序规划能力。

这就如同人类搬运水杯的任务,相当于执行「拿起水杯→走到桌前→放下水杯」这样的连贯动作。

「大脑中的大脑」

AI自我发现抽象动作

那谷歌团队是如何解决稀疏奖励带来的问题的?

答案是元控制器(Metacontroller)。

元控制器通过接收基模型的残差流,能够生成一系列简单的内部控制器。

每个控制器对应一个时序抽象动作,每个时序抽象动作对应一个时间轴,并附带终止条件。通过按时间组合多个控制器,智能体能够在新任务上实现高效探索。

Copyright 2008-2025 招商牌 版权所有  京ICP备号20090519-1-