LangSmith 评估。您首先需要定义一个评估器函数来判断代理的结果,例如最终输出或轨迹。根据您的评估技术,这可能涉及或不涉及参考输出
AgentEvals 包中的预构建评估器
创建评估器
评估代理性能的一种常见方法是将其轨迹(调用工具的顺序)与参考轨迹进行比较LLM-即-评判者
您可以使用 LLM-即-评判者评估器,它使用大型语言模型(LLM)将轨迹与参考输出进行比较并输出分数运行评估器
要运行评估器,您首先需要创建一个 LangSmith 数据集。要使用预构建的 AgentEvals 评估器,您需要一个具有以下模式的数据集- 输入:
{"messages": [...]}用于调用代理的输入消息。 - 输出:
{"messages": [...]}代理输出中预期的消息历史。对于轨迹评估,您可以选择只保留助手消息。
以编程方式连接这些文档到 Claude、VSCode 等,通过 MCP 获取实时答案。