在阅读本页之前,阅读以下内容可能会有所帮助
工作原理
LangSmith 的 Align Evaluator 功能有一系列步骤,可帮助您将 LLM 评估器与人类专家反馈对齐。您可以使用此功能对在数据集上运行的评估器进行离线评估或在线评估。无论哪种情况,步骤都相似- 选择包含应用程序输出的实验或运行。
- 将选定的实验或运行添加到标注队列,人类专家可以在其中标记数据。
- 根据标记的示例测试您的 LLM 评估器提示。检查评估器结果与标记数据不一致的情况。这表明您的评估器提示需要改进。
- 完善并重复以改进评估器对齐。更新您的 LLM 评估器提示并再次测试。
先决条件
在开始本指南的离线评估或在线评估之前,您需要以下内容离线评估
在线评估
- 一个已经向 LangSmith 发送跟踪的应用程序。
- 首先使用其中一个跟踪集成进行配置。
入门
您可以为数据集和跟踪项目中的新旧评估器进入对齐流程。| 数据集评估器 | 跟踪项目评估器 | |
|---|---|---|
| 从头开始创建对齐的评估器 | 1. 数据集与实验并选择您的数据集 2. 点击+ 评估器 > 从标记数据创建 3. 输入描述性反馈键名称(例如 正确性、幻觉) | 1. 项目并选择您的项目 2. 点击+ 新建 > 评估器 > 从标记数据创建 3. 输入描述性反馈键名称(例如 正确性、幻觉) |
| 对齐现有评估器 | 1. 数据集与实验 > 选择您的数据集 > 评估器选项卡 2. 在将评估器与实验数据对齐框中,点击选择实验 | 1. 项目 > 选择您的项目 > 评估器选项卡 2. 在将评估器与实验数据对齐框中,点击选择实验 |
1. 选择实验或运行
选择一个或多个实验(或运行)以进行人工标记。这将把运行添加到标注队列。
数据集应能代表您期望在生产中看到的输入和输出。虽然您不需要涵盖所有可能的情况,但重要的是要包含涵盖所有预期用例的示例。例如,如果您正在构建一个回答棒球、篮球和橄榄球问题的体育机器人,您的数据集应包含每个运动的至少一个标记示例。
2. 标记示例
通过添加反馈分数来标记标注队列中的示例。标记完示例后,点击添加到参考数据集。如果您的实验中有大量示例,您无需标记所有示例即可开始。我们建议从至少 20 个示例开始,您可以随时添加更多。我们建议您标记的示例是多样化的(在 0 和 1 标签中平衡),以确保您正在构建一个全面的评估器提示。
3. 根据标记示例测试评估器提示
标记完示例后,下一步是迭代您的评估器提示,使其尽可能模拟标记数据。此迭代在评估器游乐场中完成。 要进入评估器游乐场:点击评估器队列右上角的查看评估器按钮。这将带您进入正在对齐的评估器的详细信息页面。点击评估器游乐场按钮以访问游乐场。

4. 重复以改进评估器对齐
通过更新您的提示并再次测试来迭代以改进评估器对齐。默认情况下,对评估器提示的更新不会保存。我们建议定期保存您的评估器提示,尤其是在您看到对齐分数提高之后。当您迭代提示时,评估器游乐场将显示您评估器提示最近保存版本的对齐分数以进行比较。
改进评估器对齐的技巧
1. 调查未对齐的示例 深入研究未对齐的示例并尝试将它们分组为常见的故障模式是改进评估器对齐的第一步。 一旦您确定了常见的故障模式,请将说明添加到您的评估器提示中,以便 LLM 了解它们。例如,如果您注意到它不理解“MFA”这个缩写,您可以解释“MFA 代表‘多因素身份验证’”。或者,如果它混淆了评估器上下文中好/坏的含义,您可以告诉它“一个好的响应将始终包含至少 3 个潜在的酒店可供预订”。 2. 检查 LLM 分数背后的推理 要了解 LLM 为何以这种方式对示例进行评分,您可以为您的 LLM 评估器启用推理。推理有助于理解 LLM 的思维过程,并且可以帮助您识别常见的故障模式,以便将其整合到您的评估器提示中。 要在评估器游乐场中查看推理,请将鼠标悬停在 LLM 分数上。
视频指南
以编程方式连接这些文档到 Claude、VSCode 等,通过 MCP 获取实时答案。