Azure Blob 存储是微软为云提供的对象存储解决方案。Blob 存储经过优化,用于存储海量的非结构化数据。非结构化数据是指不遵循特定数据模型或定义的数据,例如文本或二进制数据。
Azure Blob 存储旨在用于
- 直接向浏览器提供图像或文档。
- 存储文件以进行分布式访问。
- 流式传输视频和音频。
- 写入日志文件。
- 存储数据以进行备份和恢复、灾难恢复和存档。
- 存储数据以供本地或 Azure 托管服务进行分析。
Azure Blob 存储上的容器加载文档对象。有关文档加载器的更详细文档,请参阅Azure Blob 存储加载器 API 参考。
建议使用此新加载器而非
langchain_community中以前的AzureBlobStorageFileLoader和AzureBlobStorageContainerLoader。有关迁移到新加载器的详细说明,请参阅迁移指南设置
从容器加载
AzureBlobStorageLoader从 Azure Blob 存储中给定容器加载所有 Blob,并需要帐户 URL 和容器名称。加载器返回Document对象,其中包含 Blob 内容(默认为 UTF-8 编码)和元数据,包括 Blob URL,如下例所示。 无需明确的凭据配置,因为它使用DefaultAzureCredential,该凭据根据您当前的环境自动检索Microsoft Entra ID 令牌。按 Blob 名称从容器加载
您可以从 Blob 名称列表加载文档,这仅使用提供的 Blob,而不是调用 API 列出 Blob。覆盖默认凭据
默认情况下,文档加载器使用DefaultAzureCredential。以下示例展示了如何覆盖此设置
自定义 Blob 内容解析
目前,解析每个 Blob 时的默认设置是将内容作为单个Document对象返回,并使用 UTF-8 编码,无论文件类型如何。对于需要特定解析(例如 PDF、CSV 等)的文件类型,或者当您想要控制文档内容格式时,您可以提供loader_factory参数,该参数接受现有的文档加载器(例如 PyPDFLoader、CSVLoader 等)或自定义加载器。 这通过将 Blob 内容下载到临时文件来工作。然后,调用loader_factory并提供文件路径,以使用指定的文档加载器加载/解析文件并返回Document对象。 下面展示了如何使用PyPDFLoader将用于解析 Blob 的默认加载器覆盖为 PDF 加载器:以编程方式连接这些文档到 Claude、VSCode 等,通过 MCP 获取实时答案。