Web Agent 的智能测试时缩放：CATTS 技术解析

在人工智能领域，测试时缩放（Test-Time Scaling）已经成为提升神经网络模型性能和可靠性的标准方法。然而，这种方法在具有多步骤任务的 Agent 场景中，其行为仍然没有得到充分的理解：每一步的小错误会在长时任务中累积放大。最近，一项名为"Agentic Test-Time Scaling for WebAgents"的研究深入探讨了这一问题，并提出了创新的解决方案 CATTS。

研究背景

Web Agent 是一类能够自主执行网页任务的 AI 系统，它们通常需要完成一系列复杂的步骤，从填写表单到导航多层网站。这些任务的挑战在于，单步的错误会在整个任务过程中累积，最终导致任务失败。传统的测试时缩放方法——即均匀地增加每一步的计算量——在长时任务中往往会遇到收益递减的问题。

研究团队首先对 Web Agent 的推理时缩放进行了实证研究。他们发现，在长时环境中，均匀增加每一步的计算量很快就会遇到性能瓶颈。这表明，简单的"堆计算"方法在面对复杂的多步骤任务时并不总是有效。

聚合策略的探索

为了解决这一问题，研究人员探索了更强大的聚合策略。其中一种方法是使用基于 LLM 的仲裁器（Arbiter），它可以通过投票来比朴素投票获得更好的结果。然而，仲裁器有时会推翻高度一致的决定，这反而可能引入新的错误。

通过对实验数据的分析，研究团队发现了一个有趣的规律：从 Agent 的投票分布中得出的不确定性统计量（如熵和 top-1/top-2 边缘）与下游任务的成功率存在相关性。这些统计量可以作为动态计算分配的实用信号，帮助系统在关键时刻投入更多计算资源，在简单任务上节省计算开销。

CATTS：信心感知测试时缩放

基于这些发现，研究团队提出了 CATTS（Confidence-Aware Test-Time Scaling）技术。这是一种简单而有效的技术，能够根据不确定性动态分配计算资源。其核心思想是：只在决策真正有争议时才增加计算投入，而在高置信度的决策上节省计算资源。

CATTS 的工作流程如下：

Agent 执行决策时，通过多次采样生成多个候选方案
计算投票分布的熵和 top-1/top-2 边缘等不确定性度量
如果不确定性超过阈值，则增加采样次数，投入更多计算资源
如果不确定性较低，则采用当前最优决策，节省计算资源

这种方法不仅能够提高性能，还能提供可解释的决策规则，让用户了解 Agent 在哪些环节面临决策困难。

实验结果与性能提升

在 WebArena-Lite 和 GoBrowse 两个 Web Agent 基准测试上，CATTS 展现了卓越的性能。相比 React 方法，CATTS 的性能提升了高达 9.1%。与此同时，CATTS 使用的 token 数量比均匀缩放方法减少了 2.3 倍，实现了效率的显著提升。

这些结果证明，通过智能地分配计算资源，而不是盲目地增加计算量，可以在保持甚至提升性能的同时大幅降低计算成本。这对于实际部署 Web Agent 系统具有重要意义，特别是在计算资源受限的环境中。

技术启示

CATTS 的研究为 AI 领域带来了几个重要启示：

首先，测试时缩放不应该是一刀切的方法。针对不同的任务场景，需要设计更精细的计算分配策略。对于多步骤的 Agent 任务，动态计算分配比均匀缩放更有效。

其次，不确定性估计可以作为测试时缩放的有效信号。通过分析 Agent 的内部决策过程，可以识别出需要额外计算的"困难"步骤，从而实现更有针对性的资源分配。

最后，可解释性在 AI 系统中非常重要。CATTS 不仅提高了性能，还提供了清晰的决策规则，这对于用户理解和信任 AI 系统至关重要。

应用前景

CATTS 技术的应用前景十分广阔。除了 Web Agent，这种动态计算分配的思想还可以应用到其他多步骤任务中，如代码生成、数学推理、流程自动化等。任何需要多步推理的 AI 任务，都可能从 CATTS 的思路中受益。

随着 AI 系统在各个领域的应用越来越广泛，如何高效、可靠地部署这些系统成为了一个关键问题。CATTS 为我们提供了一个很好的范例：通过深入理解任务特性，设计精巧的计算分配策略，可以在不增加总体计算成本的情况下显著提升系统性能。

参考文献

本研究成果的完整论文发表在 arXiv 上：

标题：Agentic Test-Time Scaling for WebAgents
作者：Nicholas Lee
论文链接：https://arxiv.org/abs/2602.12276
发表日期：2026年2月12日

龙鳞