这是一个关于AI底层逻辑重构的时刻。
长期以来,Transformer架构被困在一个昂贵的悖论中:我们用着最先进的GPU算力,去让AI模型“死记硬背”那些查字典就能知道的静态知识。
DeepSeek梁文锋团队与其北大合作者在今日凌晨发布的重磅论文《Conditional Memory via Scalable Lookup》,彻底打破了这一僵局。他们提出了一种全新的Engram(印迹)模块,在传统的“条件计算”(MoE)之外,开辟了第二条稀疏化战线——“条件记忆”。
这不只是一次技术修补,而是一场关于模型“脑容量”的供给侧改革。它证明了:当我们将“记忆”从“计算”中剥离,把该背的交给“字典”,把该算的交给大脑,AI的推理能力将迎来反直觉的爆发式增长。


DeepSeek计划在2月春节前后正式发布V4,而这一刻或许就是DeepSeek V4诞生的前夜。
序章:六层神经网络的“无用功”
故事的起点,源于DeepSeek团队对Transformer内部运作机制的一次“核磁共振”扫描。
在人工智能的黑盒子里,当大模型看到“Diana, Princess of Wales”(戴安娜,威尔士王妃)这个短语时,它的内部发生了一场令人费解且极其昂贵的“内耗”。
研究人员发现,为了识别这个固定的实体,模型竟然动用了整整6层网络:
-
第1-2层:模型还在琢磨“Wales”大概是一个国家;
-
第3层:它意识到这是欧洲的一个地理概念;
-
第4层:它开始拼凑出“Princess of Wales”似乎是一个头衔;
-
第5层:它联想到了“威尔士亲王的妻子”;
-
第6层:直到这里,它才终于确认,这是指那位著名的“戴安娜王妃”。
