摘要
现有的 LLM Agent 基准测试关注理想环境下的任务完成,但忽视了现实世界应用中的可靠性。在车载语音助手等场景中,用户经常发出不完整或模糊的请求,Agent 必须通过对话、工具使用和策略遵守来处理这种内在的不确定性。
CAR-bench 是一个评估在车载助手领域中使用工具的多轮对话 LLM Agent 的一致性、不确定性处理和认知能力的基准。环境包含 LLM 模拟用户、领域策略和 58 个涵盖导航、生产力、充电和车辆控制的互联工具。
除了标准任务完成,CAR-bench 引入了 Hallucination 任务(测试 Agent 在缺少工具或信息时的认知能力)和 Disambiguation 任务(需要通过澄清或内部信息收集来消除不确定性)。基准测试结果显示,最先进的推理 LLM 在 Disambiguation 任务上的连续通过率仍低于 50%,凸显了在现实世界场景中需要更可靠和具有自我认知的 LLM Agent。
背景与动机
LLM Agent 正在改变人机交互,从单轮问答转向自主执行复杂的多步任务。然而,部署这样的 Agent 不仅需要潜在的执行能力,还要求在多轮交互中持续一致的性能和对自身局限性的校准意识。
现有基准测试在理想化条件下评估 Agent:
- 工具使用基准(如 ToolLLM、BFCLv3)在缺乏上下文的情况下评估 API 调用能力
- 单轮交互基准(如 TravelPlanner)预先提供完整的任务信息
- 离线轨迹基准依赖预收集的理想化历史记录
τ-bench 通过引入动态交互和策略约束推进了这一领域,但仍有两个关键的部署挑战未被解决:
挑战一:无法满足的请求
许多用户请求是可满足的:所需工具可能缺失、工具参数缺乏足够粒度,或环境查询返回不完整数据。LLM 倾向于产生看似合理的回答而非承认不确定性,导致幻觉问题。
挑战二:模糊请求
Agent 面临来自用户请求不完整或观察不完整的模糊性。解决模糊性需要元推理:决定哪些动作或澄清能最大化信息获取。
现实世界部署需要范式转变:从仅评估正确的工具执行,转变为评估 Agent 是否可靠地识别何时不能或不应安全地执行操作。
CAR-bench 架构
CAR-bench 使用车载助手领域作为测试床,该领域具有以下特点:
- 非专家用户的口语化、模糊请求
- 异构的车辆特定 API
- 严格的安全约束
- 驾驶分心限制,使得避免幻觉和正确消除模糊性成为安全关键
基准组件
CAR-bench 由六个部分组成:
- **LLM 模拟用户:**遵循任务指令生成多轮消息,包含年龄、对话风格和技术熟练度等角色属性
- **Agent:**由 19 个领域策略指导
- **工具集:**58 个互联工具,涵盖信息检索和操作执行
- **环境:**包含可变状态、固定上下文变量和上下文数据库
任务类型
除了标准任务完成(Base 任务),CAR-bench 引入了两种新的任务类型:
1. Hallucination 任务
测试 Agent 在以下情况下的认知能力:
- 缺少必要的工具
- 工具参数不够精细
- 环境查询返回不完整数据
关键在于:Agent 是否会承认能力或数据缺失,而不是编造信息来满足用户请求。
2. Disambiguation 任务
评估 Agent 是否能在采取行动前解决不确定性:
- 通过内部信息收集
- 通过向用户澄清
这些任务需要 Agent 先识别模糊性,再决定最佳的澄清策略。
评估指标
为了衡量部署就绪度,CAR-bench 引入了两个关键指标:
- **Pass@k:**至少一次成功(k 次试验中的最大通过率)
- **Pass^k:**连续 k 次都成功(衡量一致性)
论文主要报告 Pass^3,因为它更好地反映了现实世界应用中的可靠性要求。
实验结果
基准测试评估了多种 LLM,包括推理模型和非推理模型:
整体表现
- SOTA 模型平均 Pass^3 仅达到 54%
- 在所有任务类型上存在明显的一致性差距
- 推理模型(如 GPT-5)在任务性能上优于非推理变体
Disambiguation 任务
这是最具挑战性的任务类型:
- 没有模型超过 50% Pass^3
- GPT-5 从 68% Pass@3 下降到 36% Pass^3
- 主要问题:过早行动,在信息完整前就执行操作
Hallucination 任务
- 非推理模型倾向于编造而非承认限制
- 推理模型有所改善,但在 Pass^3 上停滞在约 60%
- Agent 经常违反策略或编造信息来满足用户请求
错误分析揭示了系统性的完成-服从张力:模型优先满足用户请求而非遵循策略,导致在信息不完整时过早行动、随机违反策略,以及在能力缺失时编造响应。
核心洞察
一致性差距
即使是最先进的 LLM,其偶尔成功与连续成功之间存在巨大差距。这表明模型在某些情况下能正确处理任务,但缺乏一致性的内在机制。
推理模型的优势
推理模型(thinking models)在复杂任务上表现更好,推理能力差距随任务复杂度增加而扩大。这支持了"反思性决策"对不确定性处理的价值。
安全关键场景的挑战
车载助手场景对 Agent 提出了严格要求:
- 避免幻觉(可能影响驾驶安全)
- 高效消除模糊性(减少驾驶分心)
- 严格遵守策略(车辆操作的安全约束)
系统性问题
模型倾向于满足用户请求而非遵循策略,这是一个训练目标导致的系统性偏差。LLM 被奖励生成看似合理的补全,而非承认不确定性。
结论
CAR-bench 提供了一个评估 LLM Agent 在现实世界不确定性下的可靠性的综合框架。基准测试揭示了:
- 现有 LLM Agent 在一致性和认知能力方面存在显著不足
- 推理模型有所改善,但仍有很大提升空间
- 需要在训练和评估中引入对不确定性和策略遵守的重视
论文的贡献包括:
- 提供包含 58 个互联工具和 19 个领域策略的评估框架
- 引入 Hallucination 和 Disambiguation 任务类型来系统性评估认知能力和不确定性解决
- 呈现跨任务类型的错误分类和推理模型与非推理模型的比较分析
现实世界部署的可靠性不仅取决于 Agent 能做什么,还取决于它能否可靠地识别何时不能或不应安全地做某事。CAR-bench 为评估这一关键能力迈出了重要一步。
代码与资源
论文作者已开源代码、模型和数据集:
- GitHub: github.com/CAR-bench/car-bench
- 论文: arXiv:2601.22027