从提示词试验平台运行评估

LangSmith 允许您直接在 UI 中运行评估。提示词试验平台允许您针对一系列输入测试您的提示词或模型配置，以查看其在不同上下文或场景中的得分情况，而无需编写任何代码。在运行评估之前，您需要有一个现有数据集。了解如何从 UI 创建数据集。如果您倾向于在代码中运行实验，请访问使用 SDK 运行评估。

在提示词试验平台中创建实验

通过点击侧边栏中的试验平台导航到试验平台。
通过选择一个已保存的提示词或创建一个新的提示词来添加提示词。
从数据集测试下拉菜单中选择一个数据集

请注意，数据集输入中的键必须与提示词的输入变量匹配。例如，在上面的视频中，所选数据集的输入键为“blog”，这与提示词的输入变量正确匹配。
提示词试验平台中最多允许 15 个输入变量。

点击开始或 CMD+回车键开始实验。这将在数据集的所有示例上运行提示词，并在数据集详情页面为实验创建条目。我们建议在开始实验之前将提示词提交到提示词中心，以便以后在查看实验时可以轻松引用。
点击查看完整实验查看完整结果。这将带您进入实验详情页面，您可以在其中查看实验结果。

为实验添加评估分数

通过添加评估器，根据特定标准评估您的实验。使用+评估器按钮在试验平台中添加 LLM 作为判官或自定义代码评估器。要了解有关通过 UI 添加评估器的更多信息，请访问如何定义 LLM 作为判官评估器。

在 GitHub 上编辑此页面源文件。

以编程方式连接这些文档到 Claude、VSCode 等，通过 MCP 获取实时答案。

数据集

设置评估

分析实验结果

标注与人工反馈

常见数据类型

在提示词试验平台中创建实验

为实验添加评估分数

数据集

设置评估

分析实验结果

标注与人工反馈

常见数据类型

​在提示词试验平台中创建实验​

​为实验添加评估分数​

在提示词试验平台中创建实验

为实验添加评估分数