跳到主要内容
本页介绍了一些在 LangSmith 中处理 实验 的基本任务

分析单个实验

运行实验后,您可以使用 LangSmith 的实验视图分析结果并得出有关实验性能的见解。

打开实验视图

要打开实验视图,请从数据集与实验页面中选择相关的 数据集,然后选择要查看的实验。 打开实验视图

查看实验结果

自定义列

默认情况下,实验视图显示数据集中每个 示例 的输入、输出和参考输出、评估的反馈分数以及成本、令牌计数、延迟和状态等实验指标。 您可以使用 显示 按钮自定义列,使其更易于解释实验结果:
  • 将输入、输出和参考输出中的字段拆分到它们自己的列中。如果您有很长的输入/输出/参考输出并且想要显示重要字段,这会特别有用。
  • 隐藏和重新排序列以创建用于分析的聚焦视图。
  • 控制反馈分数的十进制精度。默认情况下,LangSmith 显示两位小数的数值反馈分数,但您可以将此设置自定义为最多六位小数。
  • 将热图阈值设置为实验中数字反馈分数的高、中、低,这会影响分数芯片显示为红色或绿色的阈值。
Column heatmap configuration
您可以为整个数据集设置默认配置,或仅为您自己暂时保存设置。

排序和筛选

要对反馈分数进行排序或筛选,您可以使用列标题中的操作。 排序和筛选

表格视图

根据最适合您分析的视图,您可以通过在紧凑视图、完整视图和差异视图之间切换来更改表格的格式。
  • 紧凑视图将每个运行显示为一行,以便于一目了然地比较分数。
  • 完整视图显示每个运行的完整输出,以便深入了解单个运行的详细信息。
  • 差异视图显示每个运行的参考输出与输出之间的文本差异。
Diff view

查看跟踪

将鼠标悬停在任何输出单元格上,然后单击跟踪图标以查看该运行的跟踪。这将在侧面板中打开一个跟踪。 要查看整个跟踪项目,请单击标题右上角的 查看项目 按钮。 查看跟踪

查看评估器运行

对于评估器分数,您可以通过将鼠标悬停在评估器分数单元格上并单击箭头图标来查看源运行。这将在侧面板中打开一个跟踪。如果您正在运行 LLM-as-a-judge 评估器,您可以在此运行中查看用于评估器的提示。如果您的实验有 重复,您可以单击聚合平均分数以查找所有单个运行的链接。 查看评估器运行

按元数据分组结果

您可以向示例添加元数据以对其进行分类和组织。例如,如果您正在评估问答数据集中的事实准确性,元数据可能包括每个问题所属的主题领域。元数据可以通过 UISDK 添加。 要按元数据分析结果,请使用实验视图右上角的 分组依据 下拉菜单并选择所需的元数据键。这将显示每个元数据组的平均反馈分数、延迟、总令牌数和成本。
您只能对 2025 年 2 月 20 日之后创建的实验按示例元数据进行分组。在此日期之前的任何实验仍可按元数据进行分组,但前提是元数据位于实验跟踪本身上。

重复

如果您已使用 重复 运行实验,输出结果列中将显示箭头,以便您可以在表格中查看输出。要查看重复中的每个运行,请将鼠标悬停在输出单元格上并单击展开视图。 当您运行带有重复的实验时,LangSmith 会在表格中显示每个反馈分数的平均值。单击反馈分数以查看单个运行的反馈分数,或查看重复的标准偏差。 重复

与另一个实验进行比较

在实验视图的右上角,您可以选择另一个实验进行比较。这将打开一个比较视图,您可以在其中查看两个实验的比较情况。要了解有关比较视图的更多信息,请参阅 如何比较实验结果

将实验结果下载为 CSV

LangSmith 允许您将实验结果下载为 CSV 文件,以便分析和共享结果。 要下载为 CSV,请单击实验视图顶部的下载图标。该图标位于 紧凑切换 的正左侧。 下载 CSV

重命名实验

实验名称在每个工作区中必须是唯一的。
您可以在 LangSmith UI 中重命名实验
  • Playground 中。在 Playground 中运行实验时,会自动分配一个格式为 pg::prompt-name::model::uuid(例如 pg::gpt-4o-mini::897ee630)的默认名称。 您可以在运行实验后立即在 Playground 表头中编辑其名称来重命名实验。 在 Playground 中编辑名称
  • 实验视图 中。在实验视图中查看结果时,您可以通过实验名称旁边的铅笔图标重命名实验。 在实验视图中编辑名称

以编程方式连接这些文档到 Claude、VSCode 等,通过 MCP 获取实时答案。
© . This site is unofficial and not affiliated with LangChain, Inc.