根据运行时间和运行环境的不同,LangSmith 支持两种评估方式文档索引
在以下地址获取完整的文档索引:https://docs.langchain.org.cn/llms.txt
在进一步探索之前,请使用此文件发现所有可用页面。
离线评估 (Offline Evaluation)
发布前测试在开发阶段对精选数据集进行评估,以比较不同版本、对比性能表现并捕获回归问题。
在线评估 (Online Evaluation)
生产环境监控实时评估真实用户交互,以便在实时流量中检测问题并衡量质量。
评估工作流
- 离线评估流程
- 在线评估流程
入门
评估快速入门
开始进行离线评估。
管理数据集
通过 UI 或 SDK 创建和管理用于评估的数据集。
运行离线评估
探索各种评估类型、技术和框架,以进行全面的测试。
分析结果
查看并分析评估结果,比较实验、过滤数据并导出发现。
运行在线评估
从“可观测性”选项卡实时监控生产质量。
学习教程
通过分步教程进行学习,涵盖从简单的聊天机器人到复杂的智能体评估。
要设置 LangSmith 实例,请访问 平台设置部分,以选择云、混合或自托管。所有选项都包括可观测性、评估、提示工程和部署。
将这些文档连接到 Claude、VSCode 等,以获得实时答案。

