跳到主要内容
我们已完成 1.25 亿美元的 B 轮融资,用于构建代理工程平台。
阅读更多
。
LangChain 文档主页
LangSmith
搜索...
⌘K
GitHub
尝试 LangSmith
尝试 LangSmith
搜索...
导航
LangSmith 评估
开始使用
可观察性
评估
提示工程
部署
Agent Builder
平台设置
概览
快速入门
概念
评估方法
数据集
创建数据集
管理数据集
自定义输出渲染
设置评估
运行评估
评估类型
框架与集成
评估技术
改进评估器
教程
分析实验结果
分析实验
比较实验结果
在 UI 中筛选实验
获取实验的性能指标
上传在 LangSmith 之外运行的实验
标注与人工反馈
使用标注队列
设置反馈标准
内联标注跟踪和运行
审计评估器分数
常见数据类型
示例数据格式
数据集预构建 JSON 模式类型
数据集转换
LangSmith 评估
复制页面
复制页面
以下部分将帮助您创建数据集、运行评估和分析结果
评估概念
回顾核心术语和概念,以了解 LangSmith 中评估的工作原理。
管理数据集
通过 UI 或 SDK 创建和管理用于评估的数据集。
运行评估
使用不同的评估器和技术评估您的应用程序,以衡量质量。
分析结果
查看和分析评估结果,比较实验,筛选数据,并导出发现。
收集反馈
通过批注队列和输出上的行内批注收集人工反馈。
遵循教程
通过循序渐进的教程学习,从简单的聊天机器人到复杂的代理评估。
在 GitHub 上编辑此页面源文件。
以编程方式连接这些文档
到 Claude、VSCode 等,通过 MCP 获取实时答案。
此页面有帮助吗?
是
否
评估快速入门
下一步
⌘I
©
. This site is unofficial and not affiliated with LangChain, Inc.