Apify 数据集是一种可扩展的、仅支持追加、可顺序访问的存储,专为存储结构化的网络抓取结果而构建,例如产品列表或谷歌 SERP,然后可以将其导出为 JSON、CSV 或 Excel 等多种格式。数据集主要用于保存 Apify Actors 的结果——这些是用于各种网络抓取、爬行和数据提取用例的无服务器云程序。本笔记本展示了如何将 Apify 数据集加载到 LangChain 中。
先决条件
您需要在 Apify 平台上有一个现有的数据集。本示例展示了如何加载由 Website Content Crawler 生成的数据集。Document 格式。例如,如果您的数据集项结构如下:Document 格式,以便您可以将它们与任何 LLM 模型进一步使用(例如,用于问答)。
一个问答示例
在本示例中,我们使用数据集中的数据来回答一个问题。以编程方式连接这些文档到 Claude、VSCode 等,通过 MCP 获取实时答案。