SDK
预构建的评估器
预构建的评估器是设置评估的有用起点。请参阅预构建的评估器,了解如何将预构建的评估器与 LangSmith 结合使用。创建您自己的 LLM 评判器
为了完全控制评估器逻辑,请创建您自己的 LLM 评判器并使用 LangSmith SDK(Python / TypeScript)运行它。 需要langsmith>=0.2.0UI
预构建的评估器
预构建的评估器是设置评估时有用的起点。LangSmith UI 支持以下预构建的评估器:- 幻觉:检测事实不正确的输出。需要一个参考输出。
- 正确性:检查与参考的语义相似性。
- 简洁性:评估答案是否是对问题的简洁回应。
- 代码检查器:验证代码答案的正确性。
自定义您的 LLM 评判器
为您的 LLM 评判器提示添加特定说明,并配置输入/输出/参考输出的哪些部分应传递给评估器。选择/创建评估器
- 在游乐场或数据集中:选择+评估器按钮
- 从跟踪项目:选择添加规则,配置您的规则并选择应用评估器
配置评估器
提示
创建新提示,或从提示中心选择现有提示。- 创建您自己的提示:以内联方式创建自定义提示。
- 从提示中心拉取提示:使用选择提示下拉菜单从现有提示中进行选择。您无法直接在提示编辑器中编辑这些提示,但可以查看提示及其使用的架构。要进行更改,请在游乐场中编辑提示并提交版本,然后将新提示拉入评估器中。
模型
从提供的选项中选择所需的模型。变量映射
使用变量映射来指示从您的运行或示例传递到您的评估器提示中的变量。为了帮助进行变量映射,提供了一个示例(或运行)供参考。点击您提示中的变量,并使用下拉菜单将它们映射到输入、输出或参考输出的相关部分。 要添加提示变量,如果您使用 mustache 格式(默认),请键入带有双大括号{{prompt_var}} 的变量,如果您使用 f-string 格式,请键入带有单大括号 {prompt_var} 的变量。 您可以根据需要删除变量。例如,如果您要评估简洁性等指标,通常不需要参考输出,因此可以删除该变量。预览
预览提示将向您展示使用右侧显示的参考运行和数据集示例格式化的提示的外观。用少样本示例改进你的评估器
为了更好地将 LLM 评判器与人类偏好对齐,LangSmith 允许您收集评估器分数上的人类修正。启用此选择后,修正将自动作为少量示例插入到您的提示中。 了解如何设置少量示例并进行修正。反馈配置
反馈配置是您的 LLM 评判器将使用的评分标准。将其视为您的评估器将据此评分的规则。分数将作为反馈添加到运行或示例中。为您的评估器定义反馈- 命名反馈键:这是查看评估结果时将显示的名称。名称在实验中应是唯一的。
- 添加描述:描述反馈代表什么。
- 选择反馈类型:
- 布尔值:真/假反馈。
- 分类:从预定义类别中选择。
- 连续:在指定范围内进行数值评分。
保存评估器
配置完成后,保存您的更改。以编程方式连接这些文档到 Claude、VSCode 等,通过 MCP 获取实时答案。