利用人类反馈改进 LLM 评估器 - LangChain 文档

在阅读本页之前，阅读以下内容可能会有所帮助

可靠的LLM 评估器对于为您的 AI 应用程序（例如，提示、模型、架构更改）做出明智决策至关重要。正确定义评估器提示可能很困难，但它直接影响您评估的可信度。本指南介绍了如何使用人类反馈来调整您的 LLM 评估器，以提高评估器质量并帮助您构建可靠的 AI 应用程序。

工作原理

LangSmith 的 Align Evaluator 功能有一系列步骤，可帮助您将 LLM 评估器与人类专家反馈对齐。您可以使用此功能对在数据集上运行的评估器进行离线评估或在线评估。无论哪种情况，步骤都相似

选择包含应用程序输出的实验或运行。
将选定的实验或运行添加到标注队列，人类专家可以在其中标记数据。
根据标记的示例测试您的 LLM 评估器提示。检查评估器结果与标记数据不一致的情况。这表明您的评估器提示需要改进。
完善并重复以改进评估器对齐。更新您的 LLM 评估器提示并再次测试。

先决条件

在开始本指南的离线评估或在线评估之前，您需要以下内容

离线评估

一个包含至少一个实验的数据集。
您需要通过 SDK 或 UI 上传或创建数据集，并通过 SDK 或 Playground 运行实验。

在线评估

一个已经向 LangSmith 发送跟踪的应用程序。
首先使用其中一个跟踪集成进行配置。

入门

您可以为数据集和跟踪项目中的新旧评估器进入对齐流程。

	数据集评估器	跟踪项目评估器
从头开始创建对齐的评估器	1. 数据集与实验并选择您的数据集 2. 点击+ 评估器 > 从标记数据创建 3. 输入描述性反馈键名称（例如`正确性`、`幻觉`）	1. 项目并选择您的项目 2. 点击+ 新建 > 评估器 > 从标记数据创建 3. 输入描述性反馈键名称（例如`正确性`、`幻觉`）
对齐现有评估器	1. 数据集与实验 > 选择您的数据集 > 评估器选项卡 2. 在将评估器与实验数据对齐框中，点击选择实验	1. 项目 > 选择您的项目 > 评估器选项卡 2. 在将评估器与实验数据对齐框中，点击选择实验

1. 选择实验或运行

选择一个或多个实验（或运行）以进行人工标记。这将把运行添加到标注队列。

要将任何新的实验/运行添加到现有标注队列，请前往评估器选项卡，选择您正在对齐的评估器并点击添加到队列。

数据集应能代表您期望在生产中看到的输入和输出。虽然您不需要涵盖所有可能的情况，但重要的是要包含涵盖所有预期用例的示例。例如，如果您正在构建一个回答棒球、篮球和橄榄球问题的体育机器人，您的数据集应包含每个运动的至少一个标记示例。

2. 标记示例

通过添加反馈分数来标记标注队列中的示例。标记完示例后，点击添加到参考数据集。

如果您的实验中有大量示例，您无需标记所有示例即可开始。我们建议从至少 20 个示例开始，您可以随时添加更多。我们建议您标记的示例是多样化的（在 0 和 1 标签中平衡），以确保您正在构建一个全面的评估器提示。

3. 根据标记示例测试评估器提示

标记完示例后，下一步是迭代您的评估器提示，使其尽可能模拟标记数据。此迭代在评估器游乐场中完成。要进入评估器游乐场：点击评估器队列右上角的查看评估器按钮。这将带您进入正在对齐的评估器的详细信息页面。点击评估器游乐场按钮以访问游乐场。

在评估器游乐场中，您可以创建或编辑您的评估器提示，然后点击开始对齐以在您在步骤 2 中创建的标记示例集上运行它。运行评估器后，您将看到其生成的得分如何与您的人工标签进行比较。对齐分数是评估器的判断与人类专家判断匹配的示例百分比。评估器游乐场

4. 重复以改进评估器对齐

通过更新您的提示并再次测试来迭代以改进评估器对齐。

默认情况下，对评估器提示的更新不会保存。我们建议定期保存您的评估器提示，尤其是在您看到对齐分数提高之后。当您迭代提示时，评估器游乐场将显示您评估器提示最近保存版本的对齐分数以进行比较。

提高评估器的对齐分数并非易事，但有一些策略有助于提高对齐分数。

改进评估器对齐的技巧

1. 调查未对齐的示例 深入研究未对齐的示例并尝试将它们分组为常见的故障模式是改进评估器对齐的第一步。一旦您确定了常见的故障模式，请将说明添加到您的评估器提示中，以便 LLM 了解它们。例如，如果您注意到它不理解“MFA”这个缩写，您可以解释“MFA 代表‘多因素身份验证’”。或者，如果它混淆了评估器上下文中好/坏的含义，您可以告诉它“一个好的响应将始终包含至少 3 个潜在的酒店可供预订”。 2. 检查 LLM 分数背后的推理 要了解 LLM 为何以这种方式对示例进行评分，您可以为您的 LLM 评估器启用推理。推理有助于理解 LLM 的思维过程，并且可以帮助您识别常见的故障模式，以便将其整合到您的评估器提示中。要在评估器游乐场中查看推理，请将鼠标悬停在 LLM 分数上。

这将显示评估器游乐场中 LLM 分数背后的推理。 3. 添加更多标记示例并验证性能 为避免对标记示例过拟合，添加更多标记示例并测试性能非常重要，特别是如果您一开始只有少量示例。

视频指南

在 GitHub 上编辑此页面源文件。

以编程方式连接这些文档到 Claude、VSCode 等，通过 MCP 获取实时答案。

数据集

设置评估

分析实验结果

标注与人工反馈

常见数据类型

利用人工反馈改进 LLM 判别评估器

工作原理

先决条件

离线评估

在线评估

入门

1. 选择实验或运行

2. 标记示例

3. 根据标记示例测试评估器提示

4. 重复以改进评估器对齐

改进评估器对齐的技巧

视频指南

数据集

设置评估

分析实验结果

标注与人工反馈

常见数据类型

​工作原理

​先决条件

​离线评估

​在线评估

​入门

​1. 选择实验或运行

​2. 标记示例

​3. 根据标记示例测试评估器提示

​4. 重复以改进评估器对齐

​改进评估器对齐的技巧

​视频指南

工作原理

先决条件

离线评估

在线评估

入门

1. 选择实验或运行

2. 标记示例

3. 根据标记示例测试评估器提示

4. 重复以改进评估器对齐

改进评估器对齐的技巧

视频指南