agentevals 包提供了专门用于测试智能体轨迹和实时模型的评估器。
本指南涵盖了开源的 LangChain
agentevals 包,该包与 LangSmith 集成以进行轨迹评估。轨迹匹配
为给定输入硬编码参考轨迹,并通过逐步比较来验证运行。适用于测试明确定义的工作流,您可以知道预期的行为。当您对应该调用哪些工具以及调用顺序有具体期望时使用。此方法具有确定性、快速且成本效益高,因为它不需要额外的 LLM 调用。
LLM 作为评判者
使用 LLM 定性验证智能体的执行轨迹。“评判者”LLM 根据提示评分标准(可以包括参考轨迹)审查智能体的决策。更灵活,可以评估效率和适当性等细微方面,但需要 LLM 调用且确定性较低。当您希望评估智能体轨迹的整体质量和合理性,而没有严格的工具调用或排序要求时使用。
安装 AgentEvals
轨迹匹配评估器
AgentEvals 在 Python 中提供create_trajectory_match_evaluator 函数,在 TypeScript 中提供 createTrajectoryMatchEvaluator 函数,用于将智能体的轨迹与参考轨迹进行匹配。 您可以使用以下模式:严格匹配
strict 模式确保轨迹包含相同顺序的相同消息和相同的工具调用,尽管它允许消息内容存在差异。这在您需要强制执行特定操作序列时非常有用,例如在授权操作之前要求进行策略查找。
无序匹配
unordered 模式允许以任意顺序调用相同的工具,这在您希望验证是否调用了正确的工具集但不在乎顺序时很有用。例如,智能体可能需要检查城市的天气和事件,但顺序无关紧要。
子集和超集匹配
superset 和 subset 模式侧重于调用哪些工具,而不是工具调用的顺序,允许您控制智能体的工具调用必须与参考对齐的严格程度。
- 当您希望验证执行中调用了一些关键工具,但允许智能体调用其他工具时,请使用
superset模式。智能体的轨迹必须至少包含参考轨迹中的所有工具调用,并且可能包含超出参考的其他工具调用。 - 使用
subset模式通过验证智能体没有调用参考之外的任何不相关或不必要的工具来确保智能体效率。智能体的轨迹必须只包含参考轨迹中出现的工具调用。
superset 模式,其中参考轨迹只要求 get_weather 工具,但智能体可以调用其他工具
您还可以通过设置
tool_args_match_mode (Python) 或 toolArgsMatchMode (TypeScript) 属性,以及 tool_args_match_overrides (Python) 或 toolArgsMatchOverrides (TypeScript) 属性,来自定义评估器如何考虑实际轨迹与参考轨迹中工具调用之间的相等性。默认情况下,只有具有相同参数的相同工具调用才被视为相等。访问 存储库 获取更多详细信息。LLM 作为评判者评估器
本节涵盖了
agentevals 包中特定于轨迹的 LLM 作为评判者评估器。有关 LangSmith 中通用 LLM 作为评判者评估器,请参阅 LLM 作为评判者评估器。无参考轨迹
有参考轨迹
如果您有参考轨迹,您可以向提示中添加一个额外的变量并传入参考轨迹。下面,我们使用预构建的TRAJECTORY_ACCURACY_PROMPT_WITH_REFERENCE 提示并配置 reference_outputs 变量
有关 LLM 如何评估轨迹的更多可配置性,请访问存储库。
异步支持 (Python)
所有agentevals 评估器都支持 Python asyncio。对于使用工厂函数的评估器,通过在函数名称中的 create_ 之后添加 async 即可获得异步版本。 以下是使用异步评判者和评估器的示例:以编程方式连接这些文档到 Claude、VSCode 等,通过 MCP 获取实时答案。