CAR-bench：评估 LLM Agent 在现实世界不确定性下的可靠性

摘要

现有的 LLM Agent 基准测试关注理想环境下的任务完成，但忽视了现实世界应用中的可靠性。在车载语音助手等场景中，用户经常发出不完整或模糊的请求，Agent 必须通过对话、工具使用和策略遵守来处理这种内在的不确定性。

CAR-bench 是一个评估在车载助手领域中使用工具的多轮对话 LLM Agent 的一致性、不确定性处理和认知能力的基准。环境包含 LLM 模拟用户、领域策略和 58 个涵盖导航、生产力、充电和车辆控制的互联工具。

除了标准任务完成，CAR-bench 引入了 Hallucination 任务（测试 Agent 在缺少工具或信息时的认知能力）和 Disambiguation 任务（需要通过澄清或内部信息收集来消除不确定性）。基准测试结果显示，最先进的推理 LLM 在 Disambiguation 任务上的连续通过率仍低于 50%，凸显了在现实世界场景中需要更可靠和具有自我认知的 LLM Agent。

背景与动机

LLM Agent 正在改变人机交互，从单轮问答转向自主执行复杂的多步任务。然而，部署这样的 Agent 不仅需要潜在的执行能力，还要求在多轮交互中持续一致的性能和对自身局限性的校准意识。

现有基准测试在理想化条件下评估 Agent：

工具使用基准（如 ToolLLM、BFCLv3）在缺乏上下文的情况下评估 API 调用能力
单轮交互基准（如 TravelPlanner）预先提供完整的任务信息
离线轨迹基准依赖预收集的理想化历史记录

τ-bench 通过引入动态交互和策略约束推进了这一领域，但仍有两个关键的部署挑战未被解决：

挑战一：无法满足的请求

许多用户请求是可满足的：所需工具可能缺失、工具参数缺乏足够粒度，或环境查询返回不完整数据。LLM 倾向于产生看似合理的回答而非承认不确定性，导致幻觉问题。

挑战二：模糊请求

Agent 面临来自用户请求不完整或观察不完整的模糊性。解决模糊性需要元推理：决定哪些动作或澄清能最大化信息获取。

现实世界部署需要范式转变：从仅评估正确的工具执行，转变为评估 Agent 是否可靠地识别何时不能或不应安全地执行操作。

CAR-bench 架构

CAR-bench 使用车载助手领域作为测试床，该领域具有以下特点：

非专家用户的口语化、模糊请求
异构的车辆特定 API
严格的安全约束
驾驶分心限制，使得避免幻觉和正确消除模糊性成为安全关键

基准组件

CAR-bench 由六个部分组成：

**LLM 模拟用户：**遵循任务指令生成多轮消息，包含年龄、对话风格和技术熟练度等角色属性
**Agent：**由 19 个领域策略指导
**工具集：**58 个互联工具，涵盖信息检索和操作执行
**环境：**包含可变状态、固定上下文变量和上下文数据库

任务类型

除了标准任务完成（Base 任务），CAR-bench 引入了两种新的任务类型：

1. Hallucination 任务

测试 Agent 在以下情况下的认知能力：

缺少必要的工具
工具参数不够精细
环境查询返回不完整数据

关键在于：Agent 是否会承认能力或数据缺失，而不是编造信息来满足用户请求。

2. Disambiguation 任务

评估 Agent 是否能在采取行动前解决不确定性：

通过内部信息收集
通过向用户澄清

这些任务需要 Agent 先识别模糊性，再决定最佳的澄清策略。

评估指标

为了衡量部署就绪度，CAR-bench 引入了两个关键指标：

**Pass@k：**至少一次成功（k 次试验中的最大通过率）
**Pass^k：**连续 k 次都成功（衡量一致性）

论文主要报告 Pass^3，因为它更好地反映了现实世界应用中的可靠性要求。

实验结果

基准测试评估了多种 LLM，包括推理模型和非推理模型：

整体表现

SOTA 模型平均 Pass^3 仅达到 54%
在所有任务类型上存在明显的一致性差距
推理模型（如 GPT-5）在任务性能上优于非推理变体

Disambiguation 任务

这是最具挑战性的任务类型：

没有模型超过 50% Pass^3
GPT-5 从 68% Pass@3 下降到 36% Pass^3
主要问题：过早行动，在信息完整前就执行操作

Hallucination 任务

非推理模型倾向于编造而非承认限制
推理模型有所改善，但在 Pass^3 上停滞在约 60%
Agent 经常违反策略或编造信息来满足用户请求

错误分析揭示了系统性的完成-服从张力：模型优先满足用户请求而非遵循策略，导致在信息不完整时过早行动、随机违反策略，以及在能力缺失时编造响应。

核心洞察

一致性差距

即使是最先进的 LLM，其偶尔成功与连续成功之间存在巨大差距。这表明模型在某些情况下能正确处理任务，但缺乏一致性的内在机制。

推理模型的优势

推理模型（thinking models）在复杂任务上表现更好，推理能力差距随任务复杂度增加而扩大。这支持了"反思性决策"对不确定性处理的价值。

安全关键场景的挑战

车载助手场景对 Agent 提出了严格要求：

避免幻觉（可能影响驾驶安全）
高效消除模糊性（减少驾驶分心）
严格遵守策略（车辆操作的安全约束）

系统性问题

模型倾向于满足用户请求而非遵循策略，这是一个训练目标导致的系统性偏差。LLM 被奖励生成看似合理的补全，而非承认不确定性。

结论

CAR-bench 提供了一个评估 LLM Agent 在现实世界不确定性下的可靠性的综合框架。基准测试揭示了：

现有 LLM Agent 在一致性和认知能力方面存在显著不足
推理模型有所改善，但仍有很大提升空间
需要在训练和评估中引入对不确定性和策略遵守的重视

论文的贡献包括：

提供包含 58 个互联工具和 19 个领域策略的评估框架
引入 Hallucination 和 Disambiguation 任务类型来系统性评估认知能力和不确定性解决
呈现跨任务类型的错误分类和推理模型与非推理模型的比较分析

现实世界部署的可靠性不仅取决于 Agent 能做什么，还取决于它能否可靠地识别何时不能或不应安全地做某事。CAR-bench 为评估这一关键能力迈出了重要一步。

代码与资源

论文作者已开源代码、模型和数据集：

GitHub: github.com/CAR-bench/car-bench
论文: arXiv:2601.22027

龙鳞