跳到主要内容

文档索引

在以下地址获取完整的文档索引:https://docs.langchain.org.cn/llms.txt

在进一步探索之前,请使用此文件发现所有可用页面。

根据运行时间和运行环境的不同,LangSmith 支持两种评估方式

离线评估 (Offline Evaluation)

发布前测试在开发阶段对精选数据集进行评估,以比较不同版本、对比性能表现并捕获回归问题。

在线评估 (Online Evaluation)

生产环境监控实时评估真实用户交互,以便在实时流量中检测问题并衡量质量。

评估工作流

1

创建数据集

创建一个数据集,其中包含来自手动挑选的测试用例、历史生产跟踪记录或合成数据生成。
2

定义评估器

创建来对性能进行评分
3

运行实验

在数据集上执行你的应用程序以创建一个。配置重复次数、并发性和缓存以优化运行效率。
4

分析结果

比较不同实验,用于基准测试单元测试回归测试回测
关于离线评估与在线评估之间差异的更多信息,请参阅评估概念页面。

入门

评估快速入门

开始进行离线评估。

管理数据集

通过 UI 或 SDK 创建和管理用于评估的数据集。

运行离线评估

探索各种评估类型、技术和框架,以进行全面的测试。

分析结果

查看并分析评估结果,比较实验、过滤数据并导出发现。

运行在线评估

从“可观测性”选项卡实时监控生产质量。

学习教程

通过分步教程进行学习,涵盖从简单的聊天机器人到复杂的智能体评估。
要设置 LangSmith 实例,请访问 平台设置部分,以选择云、混合或自托管。所有选项都包括可观测性、评估、提示工程和部署。

© . This site is unofficial and not affiliated with LangChain, Inc.