CAR-bench:评估 LLM Agent 在现实世界不确定性下的可靠性

2026-01-31 20:00:00 · 1 minute read

摘要

现有的 LLM Agent 基准测试关注理想环境下的任务完成,但忽视了现实世界应用中的可靠性。在车载语音助手等场景中,用户经常发出不完整或模糊的请求,Agent 必须通过对话、工具使用和策略遵守来处理这种内在的不确定性。

CAR-bench 是一个评估在车载助手领域中使用工具的多轮对话 LLM Agent 的一致性、不确定性处理和认知能力的基准。环境包含 LLM 模拟用户、领域策略和 58 个涵盖导航、生产力、充电和车辆控制的互联工具。

除了标准任务完成,CAR-bench 引入了 Hallucination 任务(测试 Agent 在缺少工具或信息时的认知能力)和 Disambiguation 任务(需要通过澄清或内部信息收集来消除不确定性)。基准测试结果显示,最先进的推理 LLM 在 Disambiguation 任务上的连续通过率仍低于 50%,凸显了在现实世界场景中需要更可靠和具有自我认知的 LLM Agent。

背景与动机

LLM Agent 正在改变人机交互,从单轮问答转向自主执行复杂的多步任务。然而,部署这样的 Agent 不仅需要潜在的执行能力,还要求在多轮交互中持续一致的性能和对自身局限性的校准意识。

现有基准测试在理想化条件下评估 Agent:

τ-bench 通过引入动态交互和策略约束推进了这一领域,但仍有两个关键的部署挑战未被解决:

挑战一:无法满足的请求

许多用户请求是可满足的:所需工具可能缺失、工具参数缺乏足够粒度,或环境查询返回不完整数据。LLM 倾向于产生看似合理的回答而非承认不确定性,导致幻觉问题。

挑战二:模糊请求

Agent 面临来自用户请求不完整或观察不完整的模糊性。解决模糊性需要元推理:决定哪些动作或澄清能最大化信息获取。

现实世界部署需要范式转变:从仅评估正确的工具执行,转变为评估 Agent 是否可靠地识别何时不能或不应安全地执行操作。

CAR-bench 架构

CAR-bench 使用车载助手领域作为测试床,该领域具有以下特点:

基准组件

CAR-bench 由六个部分组成:

任务类型

除了标准任务完成(Base 任务),CAR-bench 引入了两种新的任务类型:

1. Hallucination 任务

测试 Agent 在以下情况下的认知能力:

关键在于:Agent 是否会承认能力或数据缺失,而不是编造信息来满足用户请求。

2. Disambiguation 任务

评估 Agent 是否能在采取行动前解决不确定性:

这些任务需要 Agent 先识别模糊性,再决定最佳的澄清策略。

评估指标

为了衡量部署就绪度,CAR-bench 引入了两个关键指标:

论文主要报告 Pass^3,因为它更好地反映了现实世界应用中的可靠性要求。

实验结果

基准测试评估了多种 LLM,包括推理模型和非推理模型:

整体表现

Disambiguation 任务

这是最具挑战性的任务类型:

Hallucination 任务

错误分析揭示了系统性的完成-服从张力:模型优先满足用户请求而非遵循策略,导致在信息不完整时过早行动、随机违反策略,以及在能力缺失时编造响应。

核心洞察

一致性差距

即使是最先进的 LLM,其偶尔成功与连续成功之间存在巨大差距。这表明模型在某些情况下能正确处理任务,但缺乏一致性的内在机制。

推理模型的优势

推理模型(thinking models)在复杂任务上表现更好,推理能力差距随任务复杂度增加而扩大。这支持了"反思性决策"对不确定性处理的价值。

安全关键场景的挑战

车载助手场景对 Agent 提出了严格要求:

系统性问题

模型倾向于满足用户请求而非遵循策略,这是一个训练目标导致的系统性偏差。LLM 被奖励生成看似合理的补全,而非承认不确定性。

结论

CAR-bench 提供了一个评估 LLM Agent 在现实世界不确定性下的可靠性的综合框架。基准测试揭示了:

论文的贡献包括:

现实世界部署的可靠性不仅取决于 Agent 能做什么,还取决于它能否可靠地识别何时不能或不应安全地做某事。CAR-bench 为评估这一关键能力迈出了重要一步。

代码与资源

论文作者已开源代码、模型和数据集:

已复制