
从现有运行
首先,确保您已正确追踪多轮对话,然后导航到您的追踪项目。一旦进入您的追踪项目,只需打开运行,选择 LLM 调用,并按如下方式在测试环境中打开它:
从数据集
开始之前,请确保您已设置好数据集。由于您想评估多轮对话,请确保您的输入中有一个键包含消息列表。 创建数据集后,前往测试环境并加载数据集进行评估。 然后,将消息列表变量添加到您的提示中,确保将其命名与输入中包含消息列表的键相同:
手动
有两种手动创建多轮对话的方式。第一种方式是简单地将消息附加到提示中:

Messages List变量,从而使您可以在各种运行中重用此提示。后续步骤
现在您知道如何设置多轮交互的测试环境,您可以手动检查和判断输出,也可以添加评估器对结果进行分类。 您还可以阅读这些操作指南,了解更多关于如何使用测试环境运行评估的信息。以编程方式连接这些文档到 Claude、VSCode 等,通过 MCP 获取实时答案。