如何在 UI 中筛选实验

LangSmith 允许您根据反馈分数和元数据筛选先前的实验，从而轻松找到您关心的实验。

背景：为实验添加元数据

当您在 SDK 中运行实验时，您可以附加元数据，以便在 UI 中更轻松地进行筛选。如果您知道在运行实验时要深入研究哪些方面，这将很有帮助。在我们的示例中，我们将为实验附加关于所用模型、模型提供者和已知提示 ID 的元数据：

models = {
    "openai-gpt-4o": ChatOpenAI(model="gpt-4o", temperature=0),
    "openai-gpt-4o-mini": ChatOpenAI(model="gpt-4o-mini", temperature=0),
    "anthropic-claude-3-sonnet-20240229": ChatAnthropic(temperature=0, model_name="claude-3-sonnet-20240229")
}

prompts = {
    "singleminded": "always answer questions with the word banana.",
    "fruitminded": "always discuss fruit in your answers.",
    "basic": "you are a chatbot."
}

def answer_evaluator(run, example) -> dict:
    llm = ChatOpenAI(model="gpt-4o", temperature=0)
    answer_grader = hub.pull("langchain-ai/rag-answer-vs-reference") | llm
    score = answer_grader.invoke(
        {
            "question": example.inputs["question"],
            "correct_answer": example.outputs["answer"],
            "student_answer": run.outputs,
        }
    )
    return {"key": "correctness", "score": score["Score"]}

dataset_name = "Filterable Dataset"

for model_type, model in models.items():
    for prompt_type, prompt in prompts.items():
        def predict(example):
            return model.invoke(
                [("system", prompt), ("user", example["question"])]
            )

        model_provider = model_type.split("-")[0]
        model_name = model_type[len(model_provider) + 1:]

        evaluate(
            predict,
            data=dataset_name,
            evaluators=[answer_evaluator],
            # ADD IN METADATA HERE!!
            metadata={
                "model_provider": model_provider,
                "model_name": model_name,
                "prompt_id": prompt_type
            }
        )

在 UI 中筛选实验

在 UI 中，默认情况下，我们会看到所有已运行的实验。

如果我们偏好 OpenAI 模型，我们可以轻松筛选并首先查看 OpenAI 模型内的分数：

我们可以堆叠筛选器，从而筛选掉正确性得分低的实验，以确保我们只比较相关的实验：

最后，我们可以清除并重置筛选器。例如，如果我们看到提示为 singleminded 的模型明显胜出，我们可以更改筛选设置，以查看是否有其他模型提供者的模型也能很好地与其配合：

在 GitHub 上编辑此页面源文件。

以编程方式连接这些文档到 Claude、VSCode 等，通过 MCP 获取实时答案。

数据集

设置评估

分析实验结果

标注与人工反馈

常见数据类型

背景：为实验添加元数据

在 UI 中筛选实验

数据集

设置评估

分析实验结果

标注与人工反馈

常见数据类型

​背景：为实验添加元数据

​在 UI 中筛选实验

背景：为实验添加元数据

在 UI 中筛选实验