UpTrain [github || 网站 || 文档] 是一个用于评估和改进 LLM 应用程序的开源平台。它提供 20 多个预配置检查的评分(涵盖语言、代码、嵌入用例),对故障案例实例进行根本原因分析,并提供解决这些问题的指导。
UpTrain 回调处理程序
本笔记本展示了 UpTrain 回调处理程序如何无缝集成到您的管道中,从而促进多样化的评估。我们选择了一些我们认为适合评估链的评估。这些评估自动运行,结果显示在输出中。有关 UpTrain 评估的更多详细信息,请参见此处。 突出显示 LangChain 中的选定检索器以供演示:1. 香草 RAG
RAG 在检索上下文和生成响应方面发挥着关键作用。为了确保其性能和响应质量,我们进行以下评估2. 多查询生成
MultiQueryRetriever 创建与原始问题具有相似含义的多个问题变体。考虑到复杂性,我们包括以前的评估并添加- 多查询准确性:确保生成的多个查询与原始查询的含义相同。
3. 上下文压缩和重新排序
重新排序涉及根据与查询的相关性重新排序节点并选择前 n 个节点。由于重新排序完成后节点数量可能会减少,我们执行以下评估 这些评估共同确保了链中 RAG、MultiQueryRetriever 和重新排序过程的稳健性和有效性。安装依赖项
导入库
加载文档
将文档分成块
创建检索器
定义 LLM
设置
UpTrain 为您提供- 具有高级钻取和过滤选项的仪表盘
- 失败案例的洞察和常见主题
- 生产数据的可观测性和实时监控
- 通过与您的 CI/CD 管道无缝集成进行回归测试
1. UpTrain 的开源软件 (OSS)
您可以使用开源评估服务来评估您的模型。在这种情况下,您需要提供一个 OpenAI API 密钥。UpTrain 使用 GPT 模型来评估 LLM 生成的响应。您可以在此处获取您的 API 密钥。 为了在 UpTrain 仪表盘中查看您的评估,您需要在终端中运行以下命令进行设置:- key_type=“openai”
- api_key=“OPENAI_API_KEY”
- project_name=“PROJECT_NAME”
2. UpTrain 托管服务和仪表盘
或者,您可以使用 UpTrain 的托管服务来评估您的模型。您可以在此处创建免费的 UpTrain 帐户并获得免费试用积分。如果您想要更多试用积分,请在此处与 UpTrain 的维护者预约通话。 使用托管服务的好处是:- 无需在本地机器上设置 UpTrain 仪表盘。
- 无需 API 密钥即可访问许多 LLM。
- key_type=“uptrain”
- api_key=“UPTRAIN_API_KEY”
- project_name=“PROJECT_NAME”
设置 API 密钥
笔记本将提示您输入 API 密钥。您可以通过更改以下单元格中的 `key_type` 参数来选择 OpenAI API 密钥或 UpTrain API 密钥。1. 香草 RAG
UpTrain 回调处理程序将自动捕获生成的查询、上下文和响应,并对响应运行以下三项评估*(评分从 0 到 1)*2. 多查询生成
MultiQueryRetriever 用于解决 RAG 管道可能无法根据查询返回最佳文档集的问题。它生成与原始查询含义相同的多个查询,然后为每个查询获取文档。 为了评估此检索器,UpTrain 将运行以下评估:- 多查询准确性:检查生成的多个查询是否与原始查询含义相同。
3. 上下文压缩和重新排序
重新排序过程涉及根据与查询的相关性重新排序节点并选择前 n 个节点。由于重新排序完成后节点数量可能会减少,我们执行以下评估UpTrain 的仪表盘和洞察
这是一个展示仪表盘和洞察的短视频:
以编程方式连接这些文档到 Claude、VSCode 等,通过 MCP 获取实时答案。