如何进行重复评估

在实验中配置重复
查看重复运行的实验结果

由于 LLM 输出不是确定性的，运行多次重复可以更准确地估计系统性能。输出可能因每次重复而异。重复是减少易受高变异性影响的系统（例如代理）中噪声的一种方法。

在实验中配置重复

将可选的 num_repetitions 参数添加到 evaluate / aevaluate 函数中（Python, TypeScript），以指定对数据集中每个示例进行评估的次数。例如，如果数据集中有 5 个示例并将 num_repetitions=5，则每个示例将运行 5 次，总共运行 25 次。

from langsmith import evaluate

results = evaluate(
    lambda inputs: label_text(inputs["text"]),
    data=dataset_name,
    evaluators=[correct_label],
    experiment_prefix="Toxic Queries",
    num_repetitions=3,
)

查看重复运行的实验结果

如果您使用重复运行了实验，输出结果列中将有箭头，以便您可以在表格中查看输出。要查看重复中的每次运行，请将鼠标悬停在输出单元格上并单击展开视图。当您重复运行实验时，LangSmith 会在表格中显示每个反馈分数的平均值。单击反馈分数可查看单个运行的反馈分数，或查看重复的标准偏差。

在 GitHub 上编辑此页面源文件。

以编程方式连接这些文档到 Claude、VSCode 等，通过 MCP 获取实时答案。

自动在实验中运行评估器

如何处理模型速率限制

⌘I

数据集

设置评估

分析实验结果

标注与人工反馈

常见数据类型

在实验中配置重复

查看重复运行的实验结果

数据集

设置评估

分析实验结果

标注与人工反馈

常见数据类型

​在实验中配置重复

​查看重复运行的实验结果

在实验中配置重复

查看重复运行的实验结果