基本示例
在这里,我们将计算 F1 分数,它是精确度和召回率的组合。 这种指标只能在实验中的所有示例上计算,因此我们的评估器接收一个输出列表和一个 reference_outputs 列表。evaluate 方法,如下所示

摘要评估器参数
摘要评估器函数必须具有特定的参数名称。它们可以包含以下参数的任意子集inputs: list[dict]:与数据集中单个示例对应的输入列表。outputs: list[dict]:每个实验在给定输入上产生的字典输出列表。reference_outputs/referenceOutputs: list[dict]:与示例关联的参考输出列表(如果可用)。runs: list[Run]:两个实验在给定示例上生成的完整 Run 对象列表。如果您需要访问中间步骤或每个运行的元数据,请使用此项。examples: list[Example]:所有数据集 Example 对象,包括示例输入、输出(如果可用)和元数据(如果可用)。
摘要评估器输出
摘要评估器应返回以下类型之一: Python 和 JS/TSdict:形式为{"score": ..., "name": ...}的字典允许您传递数字或布尔分数和指标名称。
int | float | bool:这被解释为一个连续指标,可以进行平均、排序等。函数名称用作指标的名称。
以编程方式连接这些文档到 Claude、VSCode 等,通过 MCP 获取实时答案。