登录
首页 > 品牌解读 > 梁文锋署名新论文:给大模型配本“字典”,计算、记忆分家后智商爆表,剧透DeepSeek V4?

梁文锋署名新论文:给大模型配本“字典”,计算、记忆分家后智商爆表,剧透DeepSeek V4?

发布时间:2026-01-13 13:44:37

这是一个关于AI底层逻辑重构的时刻。

长期以来,Transformer架构被困在一个昂贵的悖论中:我们用着最先进的GPU算力,去让AI模型“死记硬背”那些查字典就能知道的静态知识。

DeepSeek梁文锋团队与其北大合作者在今日凌晨发布的重磅论文《Conditional Memory via Scalable Lookup》,彻底打破了这一僵局。他们提出了一种全新的Engram(印迹)模块,在传统的“条件计算”(MoE)之外,开辟了第二条稀疏化战线——“条件记忆”

这不只是一次技术修补,而是一场关于模型“脑容量”的供给侧改革。它证明了:当我们将“记忆”从“计算”中剥离,把该背的交给“字典”,把该算的交给大脑,AI的推理能力将迎来反直觉的爆发式增长。

DeepSeek计划在2月春节前后正式发布V4,而这一刻或许就是DeepSeek V4诞生的前夜。

序章:六层神经网络的“无用功”

故事的起点,源于DeepSeek团队对Transformer内部运作机制的一次“核磁共振”扫描。

在人工智能的黑盒子里,当大模型看到“Diana, Princess of Wales”(戴安娜,威尔士王妃)这个短语时,它的内部发生了一场令人费解且极其昂贵的“内耗”。

研究人员发现,为了识别这个固定的实体,模型竟然动用了整整6层网络:

 

  •  

    第1-2层:模型还在琢磨“Wales”大概是一个国家;

     

  •  

    第3层:它意识到这是欧洲的一个地理概念;

     

  •  

    第4层:它开始拼凑出“Princess of Wales”似乎是一个头衔;

     

  •  

    第5层:它联想到了“威尔士亲王的妻子”;

     

  •  

    第6层:直到这里,它才终于确认,这是指那位著名的“戴安娜王妃”。

     

 

Copyright 2008-2025 招商牌 版权所有  京ICP备号20090519-1-