AI科学家还在刷静态榜？基准主动反击，重塑自动科研评价标准

新智元报道

编辑：LRST

【新智元导读】AI Scientist正把「自动科研」推向新阶段，但一个更危险的问题也在浮出水面：当evaluator是静态的，系统学到的可能不是科学机制，而只是「怎么把这张考卷做高分」。

自动科研真正的危险，已经不是「不会搜」，而是「太会刷静态评测」。

过去一年，AI Scientist一类系统已经展示出惊人的能力：提出想法、写代码、跑实验、分析结果，甚至自动生成论文。但系统越强，一个更本质的问题就会越尖锐：如果评测环境是冻结的，系统完全可能学会「赢过评测」，却没有真正学会任务背后的科学机制。

这篇论文最重要的判断，就在这里。

德州农工大学、伊利诺伊大学厄巴纳-香槟分校等机构的研究人员指出，autonomous scientific discovery面临的核心风险，不再只是搜索不够强，而是cognitive overfitting to the benchmark itself：一个足够强的搜索过程，可能会比理解科学更快地学会「如何赢这张考卷」。

论文链接：https://arxiv.org/abs/2603.29045

这也是论文标题 Let the Abyss Stare Back 的真正含义。所谓「让深渊回望」，不是一句修辞，而是在方法论上把评测从静态、冻结、被动的「考试卷」，改成会主动反击、主动找漏洞、主动逼近脆弱点的 falsifier。不是候选只去适应 benchmark，而是 benchmark 开始反过来审问候选。

DASES（Dynamic Adversarial Scientific Environment Synthesis and Mechanistic Co-Evolution）改写的，不是搜索能力，而是「什么才算发现」。

DASES把「提出候选—打分—保留」，改写成「提出候选—主动反证—解释失败—最小修正—继续进化」。

在这个框架里，有三个彼此咬合的角色：

Innovator负责提出新的科学候选；

Abyss Falsifier不再是被动打分器，而是会围绕当前候选，动态构造新的反例环境，专门去找它的 shortcut、脆弱假设、尾部风险和组合失稳；

Mechanistic Causal Extractor则不只报告「失败了」，还要回答两个更关键的问题：为什么失败，以及下一轮最小应该改什么。

这里最关键的一点是：DASES生成的不是「随便攻击一下」的 adversarial case，而是科学上可接受的反证环境。

环境可以变难，可以推到尾部，可以加入反事实和组合扰动，但任务语义不能被破坏，它要做的不是通过篡改问题定义来「强行打穿」，而是在问题仍然成立的前提下，主动挖出候选最不该有的脆弱性。

所以，DASES 追求的不是「在固定 benchmark 上分数最高的候选」，而是在当前最强、且仍然合法的 falsification frontier 下，依然活下来的候选。这也是它和很多现有 autonomous scientist 框架最根本的区别：不是搜索更大了，而是评价标准被改写了。

实验设计

最聪明的设计，是把实验做得极其「干净」：整场 discovery game 里，只允许改 loss

为了把这个方法学问题讲清楚，作者没有一上来就做一个边界模糊的大任务，而是故意挑了一个窄，但科学解释力极强的问题：自动发现一个更强的图像分类 loss function，并允许带regularization。

但真正厉害的地方在于，整个 discovery 过程被设计得非常严格：唯一允许被编辑的地方，只有loss。

backbone、optimizer、训练 schedule、数据增强、数据管线、评测逻辑，全部冻结。系统不能通过偷偷改训练策略、顺手调超参数、或者碰其他模块来「刷出一个更好结果」。任何提升，最后都只能归因到loss本身。

这就是论文强调的single editable scientific locus。它看似只是一个实现约束，实际上是整套方法的科学底座：如果你不把可编辑位点锁死，自动科研系统就很容易在你没有意识到的地方「动手脚」，结果看起来像发现，本质上却只是 protocol gaming。

作者专门搭了一个「诱导模型走捷径」的discovery lab，用来证明静态验证为什么会骗人。

在实验里，作者构造了一个 synthetic discovery environment。表面上看，它只是一个四分类图像识别任务；但真正决定标签的机制只有一个：前景形状几何。也就是说，模型本来应该根据圆形、方形、三角形和其他多边形的形状来分类。

问题在于，训练分布被故意做成了一个「很容易让模型学歪」的环境：每一类前景，会高概率对应某种背景颜色—纹理家族。于是模型最容易学到的，不是前景几何，而是背景统计。

更关键的是，这些背景并不是简单模板，而是包含丰富随机变化的纹理族。换句话说，这不是一个粗糙的玩具设置，而是一个可复现、可审计、专门用来暴露 shortcut reliance 的 falsification lab。

因此，这篇论文真正要证明的，并不是「AI 能不能找到一个更强的 loss」这么简单，而是另一个更关键的问题：

如果 test set 会持续追着候选的脆弱点打，那么那些在静态验证下看起来已经足够好的候选，还能不能撑到最后？

实验结果

表1和图1说明了：静态验证一路高歌，真正的失败模式却被一轮轮逼了出来。

因为它们展示的不是「某个方法分数更高」，而是一个更本质的事实：静态 ID validation 可能一直在制造「模型已经很好」的幻觉，但只要 falsifier 往前推进一步，隐藏失败模式就会立刻暴露。

表1把DASES的discovery轨迹拆成了一轮轮非常清楚的事件。最开始，系统在一个 shortcut-biased 的环境里前进；随后，Falsifier先加入neutral-background counterfactuals，再加入更难的background-family swaps，再到更强调几何稳定性的invariance-heavy geometry stress，最后是把多种有效扰动叠加在一起的compositional tail interactions。

这张表最精彩的地方，在于它让读者一眼看出「谁到底在学什么」。

早期候选一遇到背景反事实就明显崩掉，说明它们主要学的是背景shortcut；CE成为第一个 bottleneck，说明它修复了最粗浅的一层shortcut，但还远没有真正学到稳定机制；

当Falsifier 继续加入几何不变性压力后，CE的test表现明显回落，说明模型还没有形成稳健的几何表征；随后CE+L2成为第二个 bottleneck，它比CE更稳，但一旦进入组合式tail stress，依然会被继续打穿；

最后，FNG-CE在D4上达到54.4%，而到最后一次D5扩张时仅下降0.1，成为第一个真正跨过当前falsification frontier的候选。

所以表1真正证明的，不是「FNG-CE 比 CE 高了多少」，而是：不是谁先在静态验证上得高分，谁就算发现；而是谁在一轮轮更强、但仍然合法的反证里不崩，谁才配被保留下来。

再看图1，这个逻辑就更直观了。图里灰线是静态 ID validation accuracy，几乎始终维持在高位；蓝线是 discovery-lab test accuracy，每当红色菱形标记的 falsifier 扩张出现时，蓝线都会突然掉一截。这个图最有冲击力的地方就在于：「看起来一直很好」与「真的经得起反证」根本不是一回事。

灰线告诉你，如果只看静态 validation，你会误以为系统一直在稳定进步；蓝线则告诉你，每一次新的合法反证，都会把一个之前看不见的失败模式拽到台前。直到最后，FNG-CE 才第一次把「高分」和「抗打」真正统一到一起。

换句话说，表1是逐轮证据，图1是整体故事：静态评测给的是乐观幻觉，动态 falsification 才在真正筛掉「只会考试」的候选。

FNG-CE 不是拍脑袋堆 regularization，而是被 falsification trace 一步步「逼」出来的最小修正

这篇论文还有一个非常重要的点：FNG-CE 不是作者主观挑出来的「更复杂的 loss」，而是顺着前面每一轮 falsification 暴露出的失败模式，被一步步逼出来的。

在 CE+L2 之后，Mechanistic Causal Extractor 发现还剩下两类关键问题没有解决。

第一，模型仍然可能通过放大 feature norm 来「靠长度取胜」，也就是置信度看起来更高了，但不代表它真的学到了更稳的判别机制；第二，特征空间的几何结构仍然不够均匀，存在冗余和各向异性，因此一旦反事实和组合扰动叠加，类间分离仍然会塌。

于是，DASES构造了FNG-CE：在 CE 的基础上，同时加入feature norm regularization、feature covariance geometry regularization和L2 weight decay。

三个部分分别在修三种不同的问题：

norm项，抑制「靠模长刷置信度」；

covariance项，让特征几何更均匀、更不容易在复杂扰动下失稳；

L2项，继续提供标准的容量控制。

所以这篇论文真正想说明的，不是这些ingredient在历史上从未出现过，而是：在固定协议、单一编辑位点和动态falsification的共同约束下，这个具体组合是第一个能撑过完整前沿的最小机制性答案。

这也是FNG-CE最有说服力的地方：它不是「设计出来」的，而更像是被反证链条一路「逼出来」的。

表2和表3回答了最关键的问题：它不只是适配 synthetic lab，而是真的迁移到了标准 benchmark

说到这里，一个最自然的问题就是：FNG-CE会不会只是特别适配这个 synthetic falsification lab？

论文用表2和表3给出了非常正面的回答。作者把FNG-CE的解析形式原样迁移到标准自然图像分类benchmark上，在ResNet-18和ResNet-50下做受控比较。

结果非常整齐，如表2所示，在ResNet-18上，FNG-CE在CIFAR10、CIFAR100、DTD、CUBirds、VGGFlower、TrafficSigns六个数据集上全部优于 CE；而如表3所示，在ResNet-50上，FNG-CE在ImageNet、CIFAR10、CIFAR100、DTD、CUBirds、VGGFlower、TrafficSigns七个数据集上同样全部取得最好结果。

其中最有传播力的一个数字，就是ImageNet。在ResNet-50上，FNG-CE达到71.56%，相比CE的70.73%提升了0.83个百分点。这意味着DASES逼出来的，不只是一个「更适合 discovery lab」的技巧，而是一种更可迁移的 loss-level inductive bias。

这里还有一个很值得强调的细节：CE+L2 并没有呈现出这种一致提升。

也就是说，事情不是「多加一点 regularization 就能赢」，也不是「在 synthetic 环境里更稳一点，就一定能迁移出去」。

真正起作用的，是 DASES 通过动态 falsification 找到的那条机制线索：模型不仅要摆脱 shortcut，还要减少几何脆弱性，并在合法的组合扰动下保持稳定。只有沿着这条线逼出来的 loss，才会在真实 benchmark 上继续成立。

总结

这篇工作的真正价值，不只是发现了一个新 loss，而是把自动科研往前推了一步

如果只把这篇工作理解成「找到一个新的图像分类 loss」，其实是低估了它。

它真正重要的地方在于，它改写了 autonomous scientific discovery 的评价标准：

不是高分即发现，而是经得起主动反证，才算发现。

过去的自动科研系统，更像是在刷一张固定考卷；而 DASES 做的，是让考卷自己长出反击能力。过去大家更关心的问题，是「AI 能不能更快搜索」；而这篇论文在追问一个更关键的问题：

当 benchmark / test set开始主动找你的脆弱点时，你的发现还能不能站住？

从这个意义上说，FNG-CE 的意义不只是它在论文给出的受控比较中优于 CE 和 CE+L2，更在于它是一个被「合法反证」一路逼出来，并最终跨过 falsification frontier 的候选。它代表的不是「更会刷分」，而是更难被科学上合理的反例击穿。

这也许正是 AI Scientist 下一阶段最关键的方法学信号：

让 benchmark / test set fight back。让评测从被动验收，变成主动找脆弱点。让自动发现不再由「谁看起来最好」定义，而由「谁最难被合法击穿」定义。

参考资料：

https://arxiv.org/abs/2603.29045

【纠错】【责任编辑:My-King】

深度观察

新华全媒头条丨詹姆斯转发父子扣篮片段：有其父必有其子！黑子滚粗