概览
集成详情
加载器功能
| 来源 | 文档延迟加载 | 原生异步支持 |
|---|---|---|
| PowerScaleDocumentLoader | ✅ | ✅ |
| PowerScaleUnstructuredLoader | ✅ | ✅ |
设置
此文档加载器需要使用已启用 MetadataIQ 的戴尔 PowerScale 系统。更多信息可在我们的 github 页面找到:https://github.com/dell/powerscale-rag-connector安装
文档加载器位于外部 pip 包中,可以使用标准工具安装初始化
现在我们可以实例化文档加载器通用文档加载器
我们的通用文档加载器可以以下列方式从 PowerScale 增量加载所有文件非结构化加载器
或者,可以使用PowerScaleUnstructuredLoader 来定位已更改的文件并自动处理这些文件,生成源文件的元素。这是通过 LangChain 的 UnstructuredLoader 类完成的。
es_host_url是 MetadataIQ Elasticsearch 数据库的端点es_index_index是 PowerScale 写入其文件系统元数据的索引名称es_api_key是您的 elasticsearch API 密钥的编码版本folder_path是 PowerScale 上要查询更改的路径
加载
在内部,所有代码都是与 PowerScale 和 MetadataIQ 异步的,加载和惰性加载方法将返回一个 python 生成器。我们建议使用惰性加载功能。返回对象
两个文档加载器都将跟踪以前返回给应用程序的文件。当再次调用时,文档加载器将只返回自上次运行以来的新文件或已修改文件。- 返回的
Document中的metadata字段将返回 PowerScale 上包含已修改文件的路径。您将使用此路径通过 NFS(或 S3)读取数据并在应用程序中处理数据(例如:创建分块和嵌入)。 source字段是 PowerScale 上的路径,不一定在您的本地系统上(取决于您的挂载策略);OneFS 将整个存储系统表示为以/ifs为根的单个树。change_types属性将告知您自上次以来发生了哪些更改 - 例如:新增、修改或删除。
change_types 中的信息来添加、更新或删除您的分块和向量存储中的条目。 当使用 PowerScaleUnstructuredLoader 时,page_content 字段将填充来自非结构化加载器的数据。延迟加载
在内部,所有代码都是与 PowerScale 和 MetadataIQ 异步的,加载和惰性加载方法将返回一个 python 生成器。我们建议使用惰性加载功能。Document 与加载函数相同,并具有上述所有相同属性。
其他示例
更多示例和代码可在我们的公共 github 网页找到:https://github.com/dell/powerscale-rag-connector/tree/main/examples,其中提供了完整的可运行示例。- PowerScale LangChain 文档加载器 - 我们标准文档加载器的工作示例
- PowerScale LangChain 非结构化加载器 - 使用非结构化加载器进行分块和嵌入的标准文档加载器的工作示例
- PowerScale NVIDIA Retriever 微服务加载器 - 使用 NVIDIA NeMo Retriever 微服务进行分块和嵌入的文档加载器的工作示例
API 参考
有关所有 PowerScale 文档加载器功能和配置的详细文档,请访问 github 页面:https://github.com/dell/powerscale-rag-connector/以编程方式连接这些文档到 Claude、VSCode 等,通过 MCP 获取实时答案。