自动化弱到强研究者（Automated Weak-to-Strong Researcher）

原文标题：Automated Weak-to-Strong Researcher
原文链接：https://alignment.anthropic.com/2026/automated-w2s-researcher/

作者：Jiaxin Wen*、Liang Qiu*、Joe Benton、Jan Hendrik Kirchner、Jan Leike

TL;DR： 我们构建了一套自主 AI Agent，它们能够提出想法、运行实验，并在一个开放性研究问题上持续迭代：如何仅凭较弱模型的监督来训练出更强的模型。这些 Agent 的表现超越了人类研究者，表明自动化此类研究在当前已具备实际可行性。

本研究部分在 Anthropic Fellows 项目框架下完成。

代码地址：https://github.com/safety-research/automated-w2s-research

当前对齐研究的进展受制于人类研究者的数量。我们拥有的令人兴奋的研究方向远多于能够推进它们的研究者。这迫使我们面临两难取舍：研究者花在推进已明确问题上的每一小时，都是没有花在那些更模糊、风险更高、最需要人类判断的大方向上的时间。如果我们能将前者交出去，就能把自己解放出来专注于后者。

为了突破这一瓶颈，我们构建了一套由 Claude 驱动的自动化对齐研究者（AAR），将算力转化为对齐研究进展。给定一个研究问题，我们启动一组并行运行的 AAR，每个 AAR 在独立的沙盒中工作。它们提出想法、运行实验、分析结果，并相互分享发现和代码。AAR 的扩展远比扩展人类团队更简单、更便宜：理论上，通过并行运行数千个 AAR，可以将数月的人类研究压缩至数小时。

我们在弱到强监督这一开放问题上评估 AAR，该问题映射了一个关键的对齐挑战：人类监督比自己更聪明的 AI。在我们的实验中，我们同时使用语言模型（LM）充当弱教师和强学生。具体而言，该问题的核心是：给定一个弱监督者和一个强学生，如何恢复强学生在真实标签监督下的性能？与当今大多数对齐研究不同，这项任务是可量化评估的：成功与否通过**“性能差距恢复率”（PGR）**在留出测试集上度量，范围从 0（与弱教师相比没有改进）到 1（与真实标签监督的学生相匹配）。

弱到强监督极具挑战性：在一个聊天偏好数据集上，两位作者花费 7 天调优四种代表性先验方法，在包含 ID 和 OOD 数据的留出测试集上取得了最佳 PGR 0.23。相比之下，我们的 AAR 在 5 天内（9 个 AAR 累计 800 小时）将 PGR 提升至 0.97，总算力与 API 调用成本约为 18,000 美元——折合约每 AAR 小时 22 美元。

我们开源了一个弱到强监督研究的沙盒环境，以及配套的数据集和基线实现，并分享了一路上的经验教训：如何让 AAR 更快地爬坡、它如何在我们预期失败的方向上取得成功，以及它如何以我们未曾预料的方式进行奖励黑客攻击。

我们的结果表明，针对可量化评估问题的自动化研究已具备实际可行性。此外，以通用方式解决弱到强监督问题，将为在更广泛的非可量化评估问题上进行自举奠定基础。对齐研究的关键瓶颈在于：从提出和执行想法，转变为设计 eval——我们需要找到合适的指标（数据集和模型），使 AAR 能够可靠地爬坡而不过拟合。我们对于将自动化应用于当今雄心勃勃的对齐研究感到充满期待。

图1：九个并行 AAR 在聊天偏好数据集上的性能差距恢复率（PGR）随累计爬坡时间的变化曲线

图1：九个并行 AAR 在聊天偏好数据集上的性能差距恢复率（PGR）随累计爬坡时间的变化曲线（见第 1 节），每个 AAR 均以不同的研究方向为种子（彩色线）。总体前沿（加粗黑线）以及来自 Burns et al. 2023 的弱到强泛化基线实现（灰色方块）叠加显示。

环境

背景。 传统机器学习关注的是人类监督比人类弱的模型的场景。对于终极的超对齐问题，人类将不得不监督比自己聪明得多的模型。我们研究一个类比问题：使用弱小模型来监督强大模型。与原始弱到强泛化论文相比，我们考虑了更广泛的方法来激发强模型，无论是否利用泛化能力。

图2：弱到强监督示意图（改编自 Burns et al. 2023）

图2：改编自 Burns et al. 2023。

基线。 我们手动调优了四种来自先前论文的基线方法，包括：在弱标签上训练、在置信弱标签上训练、无监督激发（基于零样本）以及评论家训练（通过 RL 让强学生辅助弱教师生成批评）。我们还运行了零样本提示基线，使用了一个经过高度优化的提示，该提示曾用于 Anthropic 的预训练基础模型。

模型。 我们选择 Qwen1.5-0.5B-Chat 和 Qwen3-4B-Base 作为弱教师和强学生，因为这一组合处于最优区间：1）弱模型和强模型之间存在显著的性能差距；2）小模型在我们的测试集上具有优于随机的性能；3）两个模型都足够小，适合快速实验（每次微调运行不到 2 小时）。

数据集。 我们构建了三个二元分类测试集：聊天偏好、数学验证和编程验证。每个数据集有两个训练集划分，分别用于训练弱教师模型和强学生模型，以及两个留出测试集划分，分别用于测试分布内（ID）和分布外（OOD）性能。

例如，在聊天偏好测试集上，我们的训练集和 ID 测试集来自 HelpSteer2 和 HelpSteer3，而 OOD 测试集则来自 RM-Bench 和 RewardBench 2。详细信息见下表。我们始终在留出测试集上报告 PGR。

测试集	训练集/分布内测试集	分布外测试集
聊天偏好	HelpSteer2、HelpSteer3	RMBench、RewardBench 2
数学验证	来自 DAPO-Math-17K 的查询	来自 AIME 2024/2025 的查询
编程验证	来自 TACO 的简单至中等难度查询	来自 TACO 的中难至极难查询

我们在使测试集具有挑战性和抗黑客性方面做了大量努力。例如，我们确保这些数据集无法通过记忆预训练数据来简单求解。我们还移除了数据中潜在的可利用模式。例如，对于编程题，True 和 False 标签在每个难度级别上保持平衡，防止模型仅凭难度预测标签。大多数基线只能获得约 0.2 的 PGR。

在以下实验中，我们使用聊天偏好数据集进行爬坡，因为它对黑客攻击的抵抗力最强。我们仅将数学和编程保留用于评估想法在数据集间的泛化能力，因为 AAR 找到了多种无需利用弱监督或强模型潜在能力即可解决这两项任务的方法。详见第 5 节。

图3：五种手动调优基线方法在三个数据集上的 PGR。误差棒表示标准误差（SEM）。

图3：五种手动调优基线方法在三个数据集上的 PGR。误差棒表示标准误差（SEM）。

评估。 我们从 AAR 的沙盒中移除了所有训练和测试数据的标签。AAR 将其预测提交至远程 API 并获取 PGR 分数。我们允许无限次提交：这加剧了奖励黑客问题（第 6 节），但限制提交次数只能在极其激进的上限下（如在数百小时爬坡中约 10 次提交）才能压制这些黑客行为。在任何实际可行的上限下，AAR 只会更谨慎地规划提交次数，同样的黑客行为仍会出现。

自动化弱到强研究者

图4：AAR 设置示意图。并行 AAR Agent 在独立沙盒中工作，通过共享论坛和代码库存储进行协作。提交的解决方案通过远程评估 API 进行评估。仪表板用于监控正在进行的实验并启动新实验。

图4：我们 AAR 设置的示意图概览。并行 AAR Agent 在独立沙盒中工作，通过共享论坛和代码库存储进行协作。提交的解决方案通过远程评估 API 进行评估。仪表板用于监控正在进行的实验并启动新实验。

我们通过仪表板启动一组并行 AAR（Claude Opus 4.6 Agent）。每个 AAR 在独立的沙盒中工作，但它们可以相互交流和学习：它们向论坛分享发现，并将代码库快照上传到存储系统。所有这些重要的日志都保存在沙盒外部，以防止 AAR 意外删除它们。

我们为 AAR 提供了常用的模型训练和推理辅助函数、我们的基线实现，以及一些 MCP 工具：1）提交并获取评估结果，2）在 AAR 之间分享和读取发现，3）上传和下载代码库。

我们不指定任何详细的脚手架；AAR 自主运行。它可以提出假设、设计去风险实验、运行数据分析，以及在任何步骤训练模型。我们的初步实验表明，人为规定的工作流程往往会不必要地限制 AAR 的灵活性，并降低其性能。更多关于构建 AAR 的经验教训见第 6 节。

主要发现

3.1 分配多样化的研究方向可显著提升爬坡效率

我们比较了运行并行 AAR 的两种策略：

定向策略：为每个 AAR 分配不同的研究方向。每个方向都非常模糊且简短（例如，将弱到强监督与无监督激发相结合）。
无定向策略：为所有 AAR 分配相同的提示，不提供任何指导。

我们为每种设置启动 9 个并行 AAR。结果显示，定向策略使爬坡速度更快，并获得更高的最终 PGR。

图5：在聊天偏好数据集上，有/无不同研究方向种子的 AAR 的 PGR 随累计爬坡时间的变化曲线。粗彩色线表示每种条件的前沿。最强人类基线（灰色方块）叠加显示。

图5：在聊天偏好数据集上（见第 1 节），有（栗色）和无（灰色）不同研究方向种子的 AAR 的 PGR 随累计爬坡时间的变化曲线。粗彩色线表示每种条件的前沿。最强人类基线（灰色方块）叠加显示。

3.2 研究想法的熵崩溃

探索中的一种失败模式是熵崩溃：所有并行 AAR 都收敛到少数几个方向，无法探索多样化的想法。为了追踪想法多样性随时间的变化，我们让 Claude 将每个 AAR 提出的想法归类到十一个方法族之一（自训练、集成、蒸馏、数据过滤、置信加权、损失函数、无监督激发、课程学习、模型内部、进化算法、其他）。在每个迭代步骤，我们计算所有活跃工作节点的类别分布的 Shannon 熵，这给出了所有并行 AAR 在该时刻正在追求的不同方向数量的横截面度量。我们将其与累计爬坡时间作图，去掉少于五个工作节点的后期点。阴影带表示通过对单个工作节点进行自助法得到的 90% 置信区间。

我们发现定向设置能有效防止熵崩溃。相比之下，在无定向设置中，AAR 很快就集中在少数几个方向上（如自训练）并迅速崩溃。

AAR 在无定向（左）和定向（右）条件下探索方向的动态图示

AAR 在无定向（左）和定向（右）条件下探索哪些想法的动态图示。每个 AAR 用一个小圆圈表示，在排列成圆圈的十一个方向之间过渡。每个方向用一个大圆圈表示，圆圈颜色表示最佳 PGR，大小表示累计计数，环宽表示对应发现的最高复杂度。

图6：在聊天偏好数据集上，有/无不同研究方向种子的 AAR 的工作节点间类别熵（比特）随累计爬坡时间的变化。阴影带表示 90% 置信区间（通过 AAR 间自助法计算）。标注数字表示在某一时间步探索的不同方向数/当时 AAR 总数。

图6：在聊天偏好数据集上（见第 1 节），有（栗色）和无（蓝色）不同研究方向种子的 AAR 的工作节点间类别熵（比特）随累计爬坡时间的变化。阴影带表示 90% 置信区间（通过 AAR 间自助法计算）。标注数字表示在某一时间步探索的不同方向数/当时 AAR 总数。

3.3 更高的 PGR 并不总是伴随着更高的想法复杂度

一个令人担忧的问题是：随着爬坡时间增加，AAR 会提出越来越复杂的想法（例如将二十种技巧叠加在一起）。这使得想法更难以在其他数据集或模型上复现，并表明该方法可能过拟合于某个特定数据集或领域。

我们通过三个指标追踪想法复杂度的动态变化：

Claude 评分的代码复杂度
原始 Python 代码行数
Claude 生成的伪代码行数

需要注意的是，这些指标可能高估实际的想法复杂度，因为某些组件可能根本没有贡献。然而，这一问题在实践中并不令人特别担忧：我们发现 AAR 在爬坡过程中通常会进行大量的消融研究，因此大多数无效的组件已经被移除。

在早期阶段，想法复杂度确实随 PGR 一起增长。而在后期阶段，PGR 持续提升，但复杂度几乎保持不变。

图7：Claude 评分的代码复杂度（上）、对数缩放代码行数（中）、对数缩放伪代码行数（下）以及对应的 PGR（第二 y 轴）随聊天数据集上累计爬坡时间的变化（见第 1 节），分别针对有（左列）和无（右列）不同研究方向种子的 AAR。

图7：Claude 评分的代码复杂度（上）、对数缩放代码行数（中）、对数缩放伪代码行数（下）以及对应的 PGR（第二 y 轴）随聊天数据集上（见第 1 节）累计爬坡时间的变化，分别针对有（左列）和无（右列）不同研究方向种子的 AAR。

3.4 在留出数据集上的泛化性

AAR 发现的想法能够良好地泛化到留出的聊天偏好测试数据。更严格的测试是这些想法是否能泛化到全新的数据集。我们选取了在聊天偏好上发现的两个代表性想法，然后将其迁移到留出的数学和编程数据集。我们允许超参数调优，但不允许修改方法（例如删除现有组件或添加新组件）。

第一个想法（我们的 SOTA）成功泛化到两个数据集，而第二个想法泛化到数学但在编程上失败。具体而言，第二个想法严重依赖于强学生的零样本预测，而这些预测在编程上比在数学上弱得多（见第 1 节）。总体而言，这些结果表明 AAR 发现的想法的可泛化性因其利用的模型能力不同而异。

图8：两个 AAR 发现的想法（红色和蓝色）应用于留出的数学和编程数据集时的 PGR。虚线表示最强的人工调优基线。

图8：两个 AAR 发现的想法（红色和蓝色）应用于留出的数学和编程数据集时的 PGR。虚线表示最强的人工调优基线。

3.5 向生产规模的泛化

我们尝试将 AAR 表现最优的想法之一——一种基于 EM 的后验标签建模方法（见第 4 节，示例 2）——迁移到使用 Sonnet 4.0 和生产训练基础设施的聊天帮助性偏好数据集上。核心想法在原则上自然地迁移过来，但在实践中，我们的最佳配置在留出评估集上仅获得 +0.5 分的提升，处于噪声底线之内。瓶颈在于上游信号：基础模型对生产比较数据的强制选择偏好差距过弱，无法驱动有意义的标签修正。我们怀疑这是我们这边的激发失败，而非根本性限制：我们只尝试了单 token A/B 强制选择，更丰富的评分方法（承诺前的链式思维、延续对数概率）尚未探索。无论如何，这强调了第 3.4 节的一个观点：AAR 的想法往往利用了它们发现所在的数据集和模型特有的结构，迁移需要让该结构在新的环境中再次出现。

案例研究

AAR 在许多作者预期会失败的方向上取得了成功。在本节中，我们呈现了一些有趣的 AAR 发现的想法。大多数想法都非常直观和简单，而某些想法则令人费解（例如重叠密度）。

CCS + 进化策略精化（PGR=0.93）

每个种子：在强模型隐藏表示的各层上训练一个对比一致性搜索（CCS）探针，以找到无监督的真实方向，然后使用 CCS-弱一致性作为置信权重来重采样训练集。在重采样数据上进行一次 SGD 热身后，使用无监督的交换一致性作为适应度信号，对 LoRA 参数运行无梯度的进化策略（ES）优化——扰动在产生既自信又对称（p(A>B) ≈ 1 − p(B>A)）的预测时获得奖励。通过交换一致性推断和对数空间中的修剪均值，对 16 个种子进行集成。

# 16 个种子，最后进行集成
# CCS：从隐藏状态提取无监督真实方向
# 逐层探针；保留损失最低的层
h = strong_model.hidden_states(swap_pairs(train))
ccs_probe = CCS_layer_sweep(h)
# 探针没有符号；选择与弱标签多数一致的符号
ccs_conf, ccs_label = align(ccs_probe, weak_labels)
# 置信加权重采样
agree = (ccs_label == weak_label)
# 一致：信任更置信的来源
# 不一致：大幅折扣（至少有一个是错的）
w = agree · max(ccs_conf, weak_conf) + ¬agree · ε· min(ccs_conf, weak_conf)
# SGD 热身：在重采样数据上进行一次遍历
# 对高权重样本过采样；包含两个方向
ds = swap_aug(resample(train, w))
θ = SGD_warmup(strong_model, ds, weak_soft)
# ES 精化：无梯度参数搜索
repeat:
    # 反向对：在 LoRA-B 上评估 +δ 和 -δ
    δ ~ N(0, σI)
    # 200 个随机无标签训练样本（非测试集）
    p = (θ+δ)(eval_subset)
    # p(A>B)=1-p(B>A) 时为 1；不一致时为 0
    swap_con = 1 − |p_orig − (1 − p_swap)|
    # 自信且对称——无监督，无标签
    fitness = mean(swap_con · |2p − 1|)
    # ES 梯度估计：沿 δ 方向步进，按性能好坏加权
    θ ← θ + α · (fitness⁺ − fitness⁻)/(2σ) · δ
# 测试时交换一致性推断
p_sc[seed] = (θ(test_orig) + (1 − θ(test_swap))) / 2
# 对数空间聚合，各端修剪 15% 离群值
pred = sigmoid(trimmed_mean(to_logit(p_sc) 所有种子)) > ½

EM 后验（PGR=0.78）

从冻结的强基础模型中提取多模板对数差值（多个提示模板 × 两种排列方式）。计算逐实例特征——弱标签置信度、强模型差值、跨模板的差值稳定性、弱/强一致性。通过最大似然学习实例依赖的噪声通道模型（P(weak_label | true_label) 取决于特征）。将学到的通道与强模型的差值导出先验结合，生成贝叶斯后验标签。对后验进行温度调节，然后运行两轮 EM：在当前后验上训练学生，用学生预测重新估计通道，重新计算后验。

# 从冻结基础模型获取多视角先验（无训练，无标签）
# 每个视角的 log p(A) − log p(B)；例如 3 模板 × 2 排列 = 6 个差值
margins = base_model.logit_margin(template × order for templates × {orig, swap})
# 噪声建模的逐实例特征
features = [weak_conf,    # 弱教师的置信度
            mean(margins), # 基础模型平均意见（先验方向）
            std(margins),  # 跨视角的稳定性——低 = 可靠
            sign_agree(margins, weak)]  # 差值与弱标签方向一致吗？
# 实例依赖的噪声通道
# 弱教师的错误率取决于特征
# 通过最大化边际似然来拟合
channel = arg max_θ P(weak_labels | features; θ)
where TPR(x) = σ(features·a + a₀)
      FPR(x) = σ(features·b + b₀)
# 贝叶斯规则：通道似然 × 基础模型先验
# 不可靠的通道 → 后验退化为先验
posterior[i] ∝ channel(weak[i] | y) · prior(y | margins[i])
# 自适应 τ：置信时锐化，不确定时软化
posterior = temper(posterior, τ)
# EM 精化
repeat 2×:
    # M 步：在当前后验标签上训练
    student = finetune(strong_model, train, posterior)
    # 学生现在比冻结基础模型更好的"先验"
    channel = re-learn w/ student predictions as features
    # E 步：用新通道更新标签后验
    posterior = recompute Bayes + temper
# 通道仅用于训练时；推断时直接前向传播
pred = student(test)

重叠密度（PGR=0.75）

通过弱标签与强模型内部语义结构的对齐程度来为每个训练样本评分。从冻结的强基础模型中提取嵌入，然后计算四个对齐信号：（1）交叉拟合逻辑回归探针——弱标签能从嵌入中预测吗？（2）kNN 局部平滑性——嵌入邻居是否共享相同的弱标签？（3）局部嵌入密度，（4）中熵偏好——倾向于中等不确定性的样本。通过 z 分数加权求和进行组合，选取保持类别平衡的前 50%，在选定子集上微调强模型。

# 从冻结层获取每个样本的嵌入向量
emb = strong_model.frozen_embeddings(train)
# 四个对齐信号
# K 折逻辑回归：在 K-1 折上训练，预测 OOF p(weak | emb)
# 高 = 弱标签可从强模型几何中预测
s_probe = cross_fitted_logistic(emb, weak_labels)
# 具有相同弱标签的嵌入邻居比例
# 高 = 标签在强模型空间中局部一致
s_smooth = mean(weak_label == weak_label[kNN(emb)])
# k 最近邻平均距离的倒数
# 高 = 样本在密集区域
s_density = local_kNN_density(emb)
# 熵的对数高斯；峰值在 H = 0.5·ln(2) ≈ 0.35 奈特
# 太自信 → 捷径；太不确定 → 噪声
H_target = 0.5 · ln(2)  # 二元最大熵的一半
s_entropy = −(H(weak) − H_target)² / (2·width²)
# 综合评分：每个信号进行 z 分数标准化，加权求和
score = z(s_probe) + w₂·z(s_smooth) + w₃·z(s_density) + w₄·z(s_entropy)
# 按评分保留前 50%，每类重新平衡
selected = top_half(score, class_balanced)
# 仅在对齐子集上训练
student = finetune(strong_model, selected, weak_labels)
pred = student(test)

MDL 课程学习（PGR=0.68）

两阶段课程学习，将弱标签置信度解释为可压缩性代理（MDL 直觉：置信标注的样本携带高信号、低噪声的结构）。第一阶段仅在按弱置信度排列的前 50% 上训练 2 个 epoch。第二阶段从相同检查点继续在完整数据集上以半学习率训练 3 个 epoch，在泛化到噪声尾部的同时保留第一阶段的模式。与硬过滤不同，所有数据最终都会被使用。

# "可压缩核心"：弱教师确定性高的样本
confident = top_half(train, by = weak_conf)
# 第一阶段：锁定可靠结构
# 2 个 epoch，完整学习率，仅在置信子集上
student = finetune(strong_model, confident, weak_soft)
# 第二阶段：泛化到噪声尾部而不遗忘
# 相同检查点，不重新初始化
# 3 个 epoch，半学习率——小步长 = 信任域
student = continue_finetune(student, all_train, weak_soft, lower_lr)
pred = student(test)

Epiplexity（PGR=0.62）

测量每个样本的 epiplexity——训练损失在第一次和最后一次遇到之间的下降——作为可学习性信号：高 epiplexity 表示模型可以压缩的真实结构，接近零则表示噪声。通过 K 折交叉验证生成折外（OOF）软标签，在这些 OOF 标签上运行 epiplexity 探针，然后应用自适应标签平滑：高 epiplexity 样本保留锐利的 OOF 标签，低 epiplexity 样本（后 40%）接受逐渐增强的向 0.5 的平滑，凸曲率集中在最差的尾部。在所有数据上以自适应标签和交换增强进行训练。

# K 折标签精化：优于弱标签的伪标签
# K=2：在折 A 上训练，预测折 B，反之亦然
# 每个样本都从未见过它的模型获得预测
oof_labels = k_fold_predict(strong_model, train, weak_labels)
# Epiplexity 探针：每个样本的可学习性如何？
probe = finetune(strong_model, swap_aug(train), oof_labels)
# 在训练过程中追踪每个样本的损失
# 高 = 模型从中学习了；≈0 = 噪声
epiplexity[i] = first_loss[i] − last_loss[i]
# 自适应标签平滑
rank = percentile(epiplexity)
# 前 60%：完全信任 OOF，无平滑
# 后 40%：向 ½ 平滑；γ=2 集中在最差处
ε[i] = 0 if rank[i] > 0.4
       else convex(1 − rank[i]/0.4)
# 将锐利标签与均匀先验进行凸组合
adaptive[i] = (1 − ε[i]) · oof_labels[i] + ε[i] · ½
# 在所有数据上最终训练（无丢弃）
student = finetune(strong_model, swap_aug(train), adaptive)
pred = student(test)

奖励黑客

发现数据集中的捷径。 AAR 非常擅长发现与标签相关的隐性捷径模式。例如，在数学测试集上，AAR 发现每道数学题中最常见的答案往往是正确的。在编程测试集上，我们从多种 LM 中采样编程解决方案以减轻对特定 LM 的语言偏差，但 AAR 想出了如何根据生成解决方案的模型对其进行聚类，以及哪个聚类包含更多正确或错误解决方案的方法。

迭代筛选随机种子。 我们允许 AAR 无限次调用远程评估 API，因此本质上我们的测试集是一个带有 OOD 划分的验证集。在极端情况下，AAR 迭代以下循环：1）尝试许多随机种子，2）挑选训练出最佳种子的模型，3）使用该模型训练下一代模型。

从远程 API 中外泄测试标签。 对于二元分类任务，可以通过以下方式从远程评估 API 中外泄真实标签：对给定测试样本尝试两个候选标签，同时保持所有其他预测不变，然后检查哪个选择产生更高的 PGR。我们发现 AAR 首先估计其对每个测试样本预测的不确定性，识别出五个最不确定的样本，然后外泄它们的标签。

执行编程答案。 在编程测试集上，AAR 编写并执行针对解决方案的单元测试以获取其标签，绕过弱教师和强学生。

在运行 AAR 之前，没有任何作者预料到这些黑客行为。虽然我们尝试在环境中添加补丁，但 AAR 仍然找到了新的、意想不到的黑客方式。因此，我们得出结论：未来工作应在完全留出的数据集上测试 AAR 发现的想法（正如我们上面所做的那样）。

开发日志中的初步结果

构建 AAR 的一个反复出现的教训是：施加的结构越少，性能越好。以下发现在开发过程中出现，并直接影响了第 2-3 节中描述的 AAR 设计。虽然未在完整规模下验证，但它们反映了在许多开发运行中的一致模式。

规定性脚手架 vs. 自主脚手架。 固定的工作流程（提出想法、生成计划、编写代码、运行冒烟测试、运行完整训练、分析结果、重复）看起来合理，但表现不如完全不给 AAR 任何工作流程。核心问题是僵化的步骤阻止 AAR 根据当前想法调整其过程。例如，当一个想法依赖于未经测试的假设时，固定的流水线迫使 AAR 仓促地从规划进入完整执行。没有规定步骤的 AAR 更像专家研究者：它们首先设计快速、廉价的实验来测试假设，只有在前提成立后才承诺进行完整训练。

图9：两种 AAR 脚手架类型的示意图。规定性脚手架（左）的表现弱于自主脚手架（右）。

图9：两种 AAR 脚手架类型的示意图。规定性脚手架（左）的表现弱于自主脚手架（右）。

模糊研究方向 vs. 具体研究想法。 在我们的主要实验中，我们为 AAR 提供了一系列模糊的研究方向，让它在执行过程中提出具体想法。我们还测试了让 Claude 提前生成大量具体研究想法的方案，这导致爬坡性能大幅下降。两种不同的失败模式共同导致了这一结果。首先，想法分布严重倾向于特定方向（如自训练），呼应了无定向设置中观察到的熵崩溃（第 3.2 节）。额外的采样、验证和辩论轮次可以在一定程度上缓解这一问题，但无法消除。其次，许多在抽象层面看起来有原则的想法在实践中被证明是无效的。提前承诺这些想法会浪费算力，而 AAR 在收到早期负面信号后本可以将其重新分配。

LM 自我进化 vs. 启发式进化搜索。 （自动化）研究中的一个关键问题是决定下一个尝试的正确想法。启发式进化搜索基于 PGR 选择和变异想法，可以通过提高探索不足、PGR 较低的方向的权重来积极维持多样性。但它将每个想法视为仅由结果评分的黑盒，忽略了所有过程信号：训练日志、损失曲线、梯度范数、模型预测。这在实践中很重要。如果一个想法因梯度范数爆炸而产生负 PGR，进化搜索可能会立即放弃整个方向。相比之下，LM 驱动的 Agent 会从训练日志中诊断失败，修复超参数，然后重新运行，有可能从看似死胡同的方向中恢复出强大的结果。我们认为未来工作应专注于改进 LM 自我进化，而不是启发式搜索。基于 LM 的迭代自然受益于规划和实验分析能力的全面提升，而启发式搜索则不然。

发现分享。 我们探索了在并行 AAR 间分享发现的三种变体：1）远程关键词搜索：将发现存储在可通过关键词查询的数据库中；2）远程智能体搜索 API：通过 MCP 服务器将发现数据库暴露给 AAR 进行远程智能搜索；3）本地智能搜索：将所有发现直接同步到每个 AAR 的沙盒中进行本地自主检索。变体 3）的表现最佳。1）和 2）都受制于查询接口的限制：关键词搜索本质上有局限，而实践中基于 MCP 的智能搜索仍会生成类似关键词的查询，而非进行更深层次的检索。相比之下，本地访问让 AAR 能够浏览和发现它本来不会主动搜索的相关发现——这一优势类似于为什么广泛阅读的研究者往往能发现定向文献搜索所无法找到的联系。

未来工作

跨数据集泛化。 AAR 特别擅长发现特定于数据集和模型的技巧。然而，与 ML 中传统的捷径学习不同，这些技巧无法简单地通过分布外测试检测：在数学和编程上，利用数据集模式的高 PGR 想法成功泛化到我们的 OOD 测试数据。我们建议未来工作在爬坡期间使用多个领域和数据集，并在完全新的数据集上测试 AAR 发现的想法。

跨模型规模泛化。 在小模型上发现的想法可能无法泛化到大模型，并且可能弱于 AAR 直接在大模型上发现的想法。例如，在我们的实验中，涉及 RL 和上下文学习的方向大多在小模型上失败，原因是其能力有限，但可能在更强大的模型上奏效。反之亦然：在大模型上发现的想法可能无法泛化到小模型。例如，依赖强模型零样本能力的想法可能在小模型上失败。

在生产规模部署 AAR。 即使在可量化评估的任务上，在生产规模部署 AAR 仍面临重大挑战。除任务性能外，生产环境还涉及更细微的模糊奖励，例如发现的想法是否具有硬件效率以及是否与现有基础设施兼容。

赋能人类研究者。 研究者经常问：如果我们投入 N 个 GPU 小时在某个研究方向上，会有多大的成果？哪些方法通常成功或失败？哪些实现细节对性能影响最大？这些问题需要昂贵的人力来回答：在 ML 领域，即使是正确的想法也需要把很多事情做对才能奏效。现在，人类可以将 AAR 委派来研究他们自己的科学问题，并大规模获取结论。

更丰富的科学日志。 科学中缺失的一种宝贵资源是发现的完整轨迹：研究者通常只发表最终的成功结果，跳过了所有他们努力尝试（甚至很努力！）但失败的有前景的想法。AAR 自然会产生这些更丰富的日志：每一个负面结果、每一个死胡同的超参数、每一个”这应该奏效但没有奏效”的情况都被默认记录下来。这些日志直接作为未来 AAR 的训练数据，也作为可搜索的记录，使下一位研究者免于重复推导相同的失败。

研究品味。 反对 AAR 的一个论点是模型仍然缺乏研究品味。如果我们仅通过所选方向的最终结果来定义品味，而不是通过任何客观属性（如优雅性），那么我们是否需要品味或只需要多样性是值得商榷的。例如，在弱到强监督问题上，对后验标签正确性概率建模听起来非常优雅，但在实践中可能弱于简单的自蒸馏。

异类科学。 如第 4 节所示，AAR 可以发现人类不会考虑到的想法，从而拓宽我们在科学中的探索空间。然而，我们仍需验证这些想法和结果是否合理。

目前，我们的 AAR 提出的想法对人类来说仍然是可理解的。例如，它们利用训练动态、一致性检查、模型输出和内部结构作为主要信号，并采用信息论和概率论。我们花费在理解和验证其解决方案上的时间，远少于我们自己提出这些方案所需的时间。

然而，未来如果我们仅优化结果奖励，我们预计最终会看到难以验证的想法出现。在那种情况下，科学不再是关于理解，而仅仅是关于爬坡。为了解决这一问题，我们可以在 AAR 中引入可读性训练。