跳到主要内容
当您无法以编程方式评估系统时,使用 LLM-as-a-judge 评估器会非常有帮助。然而,它们的有效性取决于它们的质量以及它们与人工评审反馈的匹配程度。LangSmith 提供了使用少样本示例改进 LLM-as-a-judge 评估器与人类偏好匹配的能力。 人工更正会使用少样本示例自动插入到您的评估器提示中。少样本示例是一种受少样本提示启发的技术,它通过一些高质量的示例来指导模型的输出。 本指南介绍了如何将少样本示例设置为 LLM-as-a-judge 评估器的一部分,并对反馈分数应用更正。

少样本示例的工作原理

  • 少样本示例使用 {{Few-shot examples}} 变量添加到您的评估器提示中
  • 使用少样本示例创建评估器将自动为您创建一个数据集,一旦您开始进行更正,该数据集将自动填充少样本示例
  • 在运行时,这些示例将被插入到评估器中,作为其输出的指南——这将有助于评估器更好地与人类偏好保持一致

配置您的评估器

目前,使用提示中心的 LLM-as-a-judge 评估器不支持少样本示例,并且只兼容使用 mustache 格式的提示。
在启用少样本示例之前,请设置您的 LLM-as-a-judge 评估器。如果您尚未完成此操作,请按照LLM-as-a-judge 评估器指南中的步骤操作。

1. 配置变量映射

每个少样本示例都根据配置中指定的变量映射进行格式化。少样本示例的变量映射应包含与您的主要提示相同的变量,以及一个 few_shot_explanation 和一个 score 变量,后者应与您的反馈键同名。 例如,如果您的主要提示有变量 questionresponse,并且您的评估器输出一个 correctness 分数,那么您的少样本提示应该有变量 questionresponsefew_shot_explanationcorrectness

2. 指定要使用的少样本示例数量

您还可以指定要使用的少样本示例数量。默认值为 5。如果您的示例很长,您可能需要将此数字设置得更低以节省令牌——而如果您的示例往往很短,您可以设置一个更高的数字,以便为您的评估器提供更多示例来学习。

进行更正

当您开始记录跟踪或运行实验时,您可能会不同意评估器给出的一些分数。当您对这些分数进行更正时,您将开始在更正数据集中看到填充的示例。在进行更正时,请务必附上解释——这些解释将填充到您的评估器提示中,替换 few_shot_explanation 变量。 少样本示例的输入将是您链/数据集的输入、输出和参考(如果这是离线评估器)中的相关字段。输出将是经过更正的评估器分数以及您在留下更正时创建的解释。您可以根据自己的喜好随意编辑这些。以下是更正数据集中少样本示例的示例: Few-shot example 请注意,更正可能需要一两分钟才能填充到您的少样本数据集中。一旦它们在那里,您的评估器未来的运行将把它们包含在提示中!

查看您的更正数据集

要查看您的更正数据集
  • 在线评估器:选择您的运行规则并点击编辑规则
  • 离线评估器:选择您的评估器并点击编辑评估器
Edit Evaluator 前往“使用少样本示例提高评估器准确性”部分中链接的更正数据集。您可以在数据集中查看和更新您的少样本示例。 View few-shot dataset
以编程方式连接这些文档到 Claude、VSCode 等,通过 MCP 获取实时答案。
© . This site is unofficial and not affiliated with LangChain, Inc.