测试多轮对话

本操作指南将引导您了解设置多轮对话测试环境的各种方法，这将使您能够针对较长的消息线程测试不同的工具配置和系统提示。

从现有运行

首先，确保您已正确追踪多轮对话，然后导航到您的追踪项目。一旦进入您的追踪项目，只需打开运行，选择 LLM 调用，并按如下方式在测试环境中打开它：

然后，您可以编辑系统提示、调整工具和/或输出模式，并观察多轮对话的输出如何变化。

开始之前，请确保您已设置好数据集。由于您想评估多轮对话，请确保您的输入中有一个键包含消息列表。创建数据集后，前往测试环境并加载数据集进行评估。然后，将消息列表变量添加到您的提示中，确保将其命名与输入中包含消息列表的键相同：

当您运行提示时，每个示例中的消息将作为列表添加，替换“消息列表”变量。

有两种手动创建多轮对话的方式。第一种方式是简单地将消息附加到提示中：

这有助于快速迭代，但由于多轮对话是硬编码的，因此比较僵硬。相反，如果您希望您的提示适用于任何多轮对话，您可以添加一个“消息列表”变量，并在其中添加您的多轮对话：

这使您只需调整系统提示或工具，同时允许任何多轮对话替换Messages List变量，从而使您可以在各种运行中重用此提示。

现在您知道如何设置多轮交互的测试环境，您可以手动检查和判断输出，也可以添加评估器对结果进行分类。您还可以阅读这些操作指南，了解更多关于如何使用测试环境运行评估的信息。

以编程方式连接这些文档到 Claude、VSCode 等，通过 MCP 获取实时答案。