跳到主要内容
评估 是一种衡量 LLM 应用程序性能的定量方法。LLM 的行为可能难以预测,即使对提示、模型或输入进行微小更改,也可能显著影响结果。评估提供了一种结构化的方法来识别故障、比较版本并构建更可靠的 AI 应用程序。 在 LangSmith 中运行评估需要三个关键组件:
  • 数据集:一组测试输入(以及可选的预期输出)。
  • 目标函数:您想要测试的应用程序部分——这可能是一个带有新提示的单个 LLM 调用、一个模块或您的整个工作流程。
  • 评估器:对目标函数的输出进行评分的函数。
本快速入门将指导您运行一个入门评估,该评估使用 LangSmith SDK 或 UI 检查 LLM 响应的正确性。
如果您更喜欢观看有关追踪入门的视频,请参阅数据集和评估视频指南

先决条件

在开始之前,请确保您拥有 选择 UI 或 SDK 过滤器以获取说明
  • UI
  • SDK

1. 设置工作区密钥

LangSmith UI 中,确保您的 OpenAI API 密钥已设置为工作区密钥
  1. 导航至 设置,然后转到密钥选项卡。
  2. 选择添加密钥并输入 OPENAI_API_KEY 和您的 API 密钥作为
  3. 选择保存密钥
在 LangSmith UI 中添加工作区密钥时,请确保密钥与您的模型提供商预期的环境变量名称匹配。

2. 创建一个提示

LangSmith 的提示实验平台使您能够对不同的提示、新模型或测试不同的模型配置进行评估。
  1. LangSmith UI 中,导航到提示工程下的实验平台
  2. 提示面板下,修改系统提示为
    Answer the following question accurately:
    
    保持人类消息不变:{question}

3. 创建数据集

  1. 点击设置评估,这将打开页面底部的一个新实验表。
  2. 选择或创建新数据集下拉菜单中,点击+ 新建按钮以创建新数据集。
    Playground with the edited system prompt and new experiment with the dropdown for creating a new dataset.
  3. 将以下示例添加到数据集中
    输入参考输出
    问题:乞力马扎罗山位于哪个国家?输出:乞力马扎罗山位于坦桑尼亚。
    问题:地球的最低点是哪里?输出:地球的最低点是死海。
  4. 点击保存并输入名称以保存您新创建的数据集。

4. 添加评估器

  1. 点击+ 评估器,并从预构建评估器选项中选择正确性
  2. 正确性面板中,点击保存

5. 运行您的评估

  1. 选择 右上角的开始以运行您的评估。这将创建一个实验,并在新实验表中提供预览。您可以通过点击实验名称查看完整内容。
    Full experiment view of the results that used the example dataset.

后续步骤

要了解更多关于在 LangSmith 中运行实验的信息,请阅读评估概念指南

视频指南


以编程方式连接这些文档到 Claude、VSCode 等,通过 MCP 获取实时答案。
© . This site is unofficial and not affiliated with LangChain, Inc.