评估快速入门

评估是一种衡量 LLM 应用程序性能的定量方法。LLM 的行为可能难以预测，即使对提示、模型或输入进行微小更改，也可能显著影响结果。评估提供了一种结构化的方法来识别故障、比较版本并构建更可靠的 AI 应用程序。在 LangSmith 中运行评估需要三个关键组件：

数据集：一组测试输入（以及可选的预期输出）。
目标函数：您想要测试的应用程序部分——这可能是一个带有新提示的单个 LLM 调用、一个模块或您的整个工作流程。
评估器：对目标函数的输出进行评分的函数。

本快速入门将指导您运行一个入门评估，该评估使用 LangSmith SDK 或 UI 检查 LLM 响应的正确性。

如果您更喜欢观看有关追踪入门的视频，请参阅数据集和评估视频指南。

先决条件

在开始之前，请确保您拥有

一个 LangSmith 帐户：在 smith.langchain.com 注册或登录。
一个 LangSmith API 密钥：按照创建 API 密钥指南操作。
一个 OpenAI API 密钥：从 OpenAI 控制台生成。

选择 UI 或 SDK 过滤器以获取说明

1. 设置工作区密钥

在 LangSmith UI 中，确保您的 OpenAI API 密钥已设置为工作区密钥。

导航至设置，然后转到密钥选项卡。
选择添加密钥并输入 OPENAI_API_KEY 和您的 API 密钥作为值。
选择保存密钥。

在 LangSmith UI 中添加工作区密钥时，请确保密钥与您的模型提供商预期的环境变量名称匹配。

2. 创建一个提示

LangSmith 的提示实验平台使您能够对不同的提示、新模型或测试不同的模型配置进行评估。

在 LangSmith UI 中，导航到提示工程下的实验平台。
在提示面板下，修改系统提示为
```
Answer the following question accurately:
```
保持人类消息不变：{question}。

3. 创建数据集

点击设置评估，这将打开页面底部的一个新实验表。
在选择或创建新数据集下拉菜单中，点击+ 新建按钮以创建新数据集。
将以下示例添加到数据集中
输入参考输出
问题：乞力马扎罗山位于哪个国家？输出：乞力马扎罗山位于坦桑尼亚。
问题：地球的最低点是哪里？输出：地球的最低点是死海。
点击保存并输入名称以保存您新创建的数据集。

输入	参考输出
问题：乞力马扎罗山位于哪个国家？	输出：乞力马扎罗山位于坦桑尼亚。
问题：地球的最低点是哪里？	输出：地球的最低点是死海。

4. 添加评估器

点击+ 评估器，并从预构建评估器选项中选择正确性。
在正确性面板中，点击保存。

5. 运行您的评估

选择右上角的开始以运行您的评估。这将创建一个实验，并在新实验表中提供预览。您可以通过点击实验名称查看完整内容。

后续步骤

要了解更多关于在 LangSmith 中运行实验的信息，请阅读评估概念指南。

有关评估的更多详细信息，请参阅评估文档。
了解如何在 UI 中创建和管理数据集。
了解如何从提示实验平台运行评估。

视频指南

在 GitHub 上编辑此页面源文件。

以编程方式连接这些文档到 Claude、VSCode 等，通过 MCP 获取实时答案。

数据集

设置评估

分析实验结果

标注与人工反馈

常见数据类型

先决条件

1. 设置工作区密钥

2. 创建一个提示

3. 创建数据集

4. 添加评估器

5. 运行您的评估

后续步骤

视频指南

数据集

设置评估

分析实验结果

标注与人工反馈

常见数据类型

​先决条件

​1. 设置工作区密钥

​2. 创建一个提示

​3. 创建数据集

​4. 添加评估器

​5. 运行您的评估

​后续步骤

​视频指南

先决条件

1. 设置工作区密钥

2. 创建一个提示

3. 创建数据集

4. 添加评估器

5. 运行您的评估

后续步骤

视频指南