AI科学家还在刷静态榜?基准主动反击,重塑自动科研评价标准
AI科学家还在刷静态榜?基准主动反击,重塑自动科研评价标准
  • 2026-04-25 19:46:57
    来源:惊恐万状网

    AI科学家还在刷静态榜?基准主动反击,重塑自动科研评价标准

    字体:

    新智元报道

    编辑:LRST

    【新智元导读】AI Scientist正把「自动科研」推向新阶段,但一个更危险的问题也在浮出水面:当evaluator是静态的,系统学到的可能不是科学机制,而只是「怎么把这张考卷做高分」。

    自动科研真正的危险,已经不是「不会搜」,而是「太会刷静态评测」。

    过去一年,AI Scientist一类系统已经展示出惊人的能力:提出想法、写代码、跑实验、分析结果,甚至自动生成论文。但系统越强,一个更本质的问题就会越尖锐:如果评测环境是冻结的,系统完全可能学会「赢过评测」,却没有真正学会任务背后的科学机制。

    这篇论文最重要的判断,就在这里。

    德州农工大学、伊利诺伊大学厄巴纳-香槟分校等机构的研究人员指出,autonomous scientific discovery面临的核心风险,不再只是搜索不够强,而是cognitive overfitting to the benchmark itself:一个足够强的搜索过程,可能会比理解科学更快地学会「如何赢这张考卷」。

    论文链接:https://arxiv.org/abs/2603.29045

    这也是论文标题 Let the Abyss Stare Back 的真正含义。所谓「让深渊回望」,不是一句修辞,而是在方法论上把评测从静态、冻结、被动的「考试卷」,改成会主动反击、主动找漏洞、主动逼近脆弱点的 falsifier。不是候选只去适应 benchmark,而是 benchmark 开始反过来审问候选。

    DASES(Dynamic Adversarial Scientific Environment Synthesis and Mechanistic Co-Evolution)改写的,不是搜索能力,而是「什么才算发现」。

    DASES把「提出候选—打分—保留」,改写成「提出候选—主动反证—解释失败—最小修正—继续进化」。

    在这个框架里,有三个彼此咬合的角色:

    Innovator负责提出新的科学候选;

    Abyss Falsifier不再是被动打分器,而是会围绕当前候选,动态构造新的反例环境,专门去找它的 shortcut、脆弱假设、尾部风险和组合失稳;

    Mechanistic Causal Extractor则不只报告「失败了」,还要回答两个更关键的问题:为什么失败,以及下一轮最小应该改什么。

    这里最关键的一点是:DASES生成的不是「随便攻击一下」的 adversarial case,而是科学上可接受的反证环境。

    环境可以变难,可以推到尾部,可以加入反事实和组合扰动,但任务语义不能被破坏,它要做的不是通过篡改问题定义来「强行打穿」,而是在问题仍然成立的前提下,主动挖出候选最不该有的脆弱性。

    所以,DASES 追求的不是「在固定 benchmark 上分数最高的候选」,而是在当前最强、且仍然合法的 falsification frontier 下,依然活下来的候选。这也是它和很多现有 autonomous scientist 框架最根本的区别:不是搜索更大了,而是评价标准被改写了。

    实验设计

    最聪明的设计,是把实验做得极其「干净」:整场 discovery game 里,只允许改 loss

    为了把这个方法学问题讲清楚,作者没有一上来就做一个边界模糊的大任务,而是故意挑了一个窄,但科学解释力极强的问题:自动发现一个更强的图像分类 loss function,并允许带regularization。

    但真正厉害的地方在于,整个 discovery 过程被设计得非常严格:唯一允许被编辑的地方,只有loss。

    backbone、optimizer、训练 schedule、数据增强、数据管线、评测逻辑,全部冻结。系统不能通过偷偷改训练策略、顺手调超参数、或者碰其他模块来「刷出一个更好结果」。任何提升,最后都只能归因到loss本身。

    这就是论文强调的single editable scientific locus。它看似只是一个实现约束,实际上是整套方法的科学底座:如果你不把可编辑位点锁死,自动科研系统就很容易在你没有意识到的地方「动手脚」,结果看起来像发现,本质上却只是 protocol gaming。

    作者专门搭了一个「诱导模型走捷径」的discovery lab,用来证明静态验证为什么会骗人。

    在实验里,作者构造了一个 synthetic discovery environment。表面上看,它只是一个四分类图像识别任务;但真正决定标签的机制只有一个:前景形状几何。也就是说,模型本来应该根据圆形、方形、三角形和其他多边形的形状来分类。

    问题在于,训练分布被故意做成了一个「很容易让模型学歪」的环境: 每一类前景,会高概率对应某种背景颜色—纹理家族。于是模型最容易学到的,不是前景几何,而是背景统计。

    更关键的是,这些背景并不是简单模板,而是包含丰富随机变化的纹理族。换句话说,这不是一个粗糙的玩具设置,而是一个可复现、可审计、专门用来暴露 shortcut reliance 的 falsification lab。

    因此,这篇论文真正要证明的,并不是「AI 能不能找到一个更强的 loss」这么简单,而是另一个更关键的问题:

    如果 test set 会持续追着候选的脆弱点打,那么那些在静态验证下看起来已经足够好的候选,还能不能撑到最后?

    实验结果

    表1和图1说明了:静态验证一路高歌,真正的失败模式却被一轮轮逼了出来。

    因为它们展示的不是「某个方法分数更高」,而是一个更本质的事实:静态 ID validation 可能一直在制造「模型已经很好」的幻觉,但只要 falsifier 往前推进一步,隐藏失败模式就会立刻暴露。

    表1把DASES的discovery轨迹拆成了一轮轮非常清楚的事件。最开始,系统在一个 shortcut-biased 的环境里前进;随后,Falsifier先加入neutral-background counterfactuals,再加入更难的background-family swaps,再到更强调几何稳定性的invariance-heavy geometry stress,最后是把多种有效扰动叠加在一起的compositional tail interactions。

    这张表最精彩的地方,在于它让读者一眼看出「谁到底在学什么」。

    早期候选一遇到背景反事实就明显崩掉,说明它们主要学的是背景shortcut;CE成为第一个 bottleneck,说明它修复了最粗浅的一层shortcut,但还远没有真正学到稳定机制;

    当Falsifier 继续加入几何不变性压力后,CE的test表现明显回落,说明模型还没有形成稳健的几何表征; 随后CE+L2成为第二个 bottleneck,它比CE更稳,但一旦进入组合式tail stress,依然会被继续打穿;

    最后,FNG-CE在D4上达到54.4%,而到最后一次D5扩张时仅下降0.1,成为第一个真正跨过当前falsification frontier的候选。

    所以表1真正证明的,不是「FNG-CE 比 CE 高了多少」,而是:不是谁先在静态验证上得高分,谁就算发现;而是谁在一轮轮更强、但仍然合法的反证里不崩,谁才配被保留下来。

    再看图1,这个逻辑就更直观了。图里灰线是静态 ID validation accuracy,几乎始终维持在高位;蓝线是 discovery-lab test accuracy,每当红色菱形标记的 falsifier 扩张出现时,蓝线都会突然掉一截。这个图最有冲击力的地方就在于:「看起来一直很好」与「真的经得起反证」根本不是一回事。

    灰线告诉你,如果只看静态 validation,你会误以为系统一直在稳定进步; 蓝线则告诉你,每一次新的合法反证,都会把一个之前看不见的失败模式拽到台前。 直到最后,FNG-CE 才第一次把「高分」和「抗打」真正统一到一起。

    换句话说,表1是逐轮证据,图1是整体故事:静态评测给的是乐观幻觉,动态 falsification 才在真正筛掉「只会考试」的候选。

    FNG-CE 不是拍脑袋堆 regularization,而是被 falsification trace 一步步「逼」出来的最小修正

    这篇论文还有一个非常重要的点:FNG-CE 不是作者主观挑出来的「更复杂的 loss」,而是顺着前面每一轮 falsification 暴露出的失败模式,被一步步逼出来的。

    在 CE+L2 之后,Mechanistic Causal Extractor 发现还剩下两类关键问题没有解决。

    第一,模型仍然可能通过放大 feature norm 来「靠长度取胜」,也就是置信度看起来更高了,但不代表它真的学到了更稳的判别机制; 第二,特征空间的几何结构仍然不够均匀,存在冗余和各向异性,因此一旦反事实和组合扰动叠加,类间分离仍然会塌。

    于是,DASES构造了FNG-CE: 在 CE 的基础上,同时加入feature norm regularization、feature covariance geometry regularization和L2 weight decay。

    三个部分分别在修三种不同的问题:

    norm项,抑制「靠模长刷置信度」;

    covariance项,让特征几何更均匀、更不容易在复杂扰动下失稳;

    L2项,继续提供标准的容量控制。

    所以这篇论文真正想说明的,不是这些ingredient在历史上从未出现过,而是:在固定协议、单一编辑位点和动态falsification的共同约束下,这个具体组合是第一个能撑过完整前沿的最小机制性答案。

    这也是FNG-CE最有说服力的地方:它不是「设计出来」的,而更像是被反证链条一路「逼出来」的。

    表2和表3回答了最关键的问题:它不只是适配 synthetic lab,而是真的迁移到了标准 benchmark

    说到这里,一个最自然的问题就是:FNG-CE会不会只是特别适配这个 synthetic falsification lab?

    论文用表2和表3给出了非常正面的回答。作者把FNG-CE的解析形式原样迁移到标准自然图像分类benchmark上,在ResNet-18和ResNet-50下做受控比较。

    结果非常整齐,如表2所示,在ResNet-18上,FNG-CE在CIFAR10、CIFAR100、DTD、CUBirds、VGGFlower、TrafficSigns六个数据集上全部优于 CE; 而如表3所示,在ResNet-50上,FNG-CE在ImageNet、CIFAR10、CIFAR100、DTD、CUBirds、VGGFlower、TrafficSigns七个数据集上同样全部取得最好结果。

    其中最有传播力的一个数字,就是ImageNet。在ResNet-50上,FNG-CE达到71.56%,相比CE的70.73%提升了0.83个百分点。这意味着DASES逼出来的,不只是一个「更适合 discovery lab」的技巧,而是一种更可迁移的 loss-level inductive bias。

    这里还有一个很值得强调的细节:CE+L2 并没有呈现出这种一致提升。

    也就是说,事情不是「多加一点 regularization 就能赢」,也不是「在 synthetic 环境里更稳一点,就一定能迁移出去」。

    真正起作用的,是 DASES 通过动态 falsification 找到的那条机制线索:模型不仅要摆脱 shortcut,还要减少几何脆弱性,并在合法的组合扰动下保持稳定。只有沿着这条线逼出来的 loss,才会在真实 benchmark 上继续成立。

    总结

    这篇工作的真正价值,不只是发现了一个新 loss,而是把自动科研往前推了一步

    如果只把这篇工作理解成「找到一个新的图像分类 loss」,其实是低估了它。

    它真正重要的地方在于,它改写了 autonomous scientific discovery 的评价标准:

    不是高分即发现,而是经得起主动反证,才算发现。

    过去的自动科研系统,更像是在刷一张固定考卷; 而 DASES 做的,是让考卷自己长出反击能力。 过去大家更关心的问题,是「AI 能不能更快搜索」; 而这篇论文在追问一个更关键的问题:

    当 benchmark / test set开始主动找你的脆弱点时,你的发现还能不能站住?

    从这个意义上说,FNG-CE 的意义不只是它在论文给出的受控比较中优于 CE 和 CE+L2,更在于它是一个被「合法反证」一路逼出来,并最终跨过 falsification frontier 的候选。它代表的不是「更会刷分」,而是更难被科学上合理的反例击穿。

    这也许正是 AI Scientist 下一阶段最关键的方法学信号:

    让 benchmark / test set fight back。让评测从被动验收,变成主动找脆弱点。让自动发现不再由「谁看起来最好」定义,而由「谁最难被合法击穿」定义。

    参考资料:

    https://arxiv.org/abs/2603.29045

    【纠错】【责任编辑:My-King】