Pebblo 使开发人员能够安全地加载数据,并将其 Gen AI 应用程序推广到部署,而无需担心组织合规性和安全要求。该项目识别加载数据中发现的语义主题和实体,并在 UI 或 PDF 报告上进行总结。Pebblo 有两个组件。
- Pebblo Safe DocumentLoader for LangChain
- Pebblo 服务器
Pebblo Server 的详细信息,请参阅此Pebblo 服务器文档。 Pebblo Safeloader 实现了 LangChain DocumentLoader 的安全数据摄取。这是通过将文档加载器调用与 Pebblo Safe DocumentLoader 封装来完成的。 注意:要将 pebblo 服务器配置为除了 pebblo 默认 (localhost:8000) URL 之外的其他 URL,请将正确的 URL 放入 PEBBLO_CLASSIFIER_URL 环境变量中。这也可以通过 classifier_url 关键字参数进行配置。参考:服务器配置如何启用 Pebblo 文档加载?
假设一个 LangChain RAG 应用程序片段使用CSVLoader 读取 CSV 文档进行推理。 以下是使用 CSVLoader 加载文档的片段。将语义主题和身份发送到 Pebblo 云服务器
要将语义数据发送到 pebblo-cloud,请将 api-key 作为参数传递给 PebbloSafeLoader,或者将 api-key 放入PEBBLO_API_KEY 环境变量中。
将语义主题和身份添加到加载的元数据中
要将语义主题和语义实体添加到已加载文档的元数据中,请将 load_semantic 设置为 True 作为参数,或者定义一个新的环境变量PEBBLO_LOAD_SEMANTIC,并将其设置为 True。
匿名化代码片段以编辑所有 PII 详细信息
将anonymize_snippets 设置为 True,以匿名化进入 VectorDB 的代码片段和生成的报告中所有个人身份信息 (PII)。
注意:Pebblo 实体分类器可有效识别个人身份信息 (PII) 并持续发展。虽然其召回率尚未达到 100%,但正在稳步提高。有关更多详细信息,请参阅Pebblo 实体分类器文档
以编程方式连接这些文档到 Claude、VSCode 等,通过 MCP 获取实时答案。