Airbyte 是一个用于 ELT 管道的数据集成平台,可将数据从 API、数据库和文件传输到数据仓库和数据湖。它拥有最庞大的 ELT 连接器目录,可连接到各种数据仓库和数据库。本节介绍如何将来自 Airbyte 的任何数据源加载到 LangChain 文档中。
安装
要使用AirbyteLoader,您需要安装 langchain-airbyte 集成包。
airbyte 库不支持 Pydantic v2。请降级到 Pydantic v1 以使用此包。 注意:此包目前也需要 Python 3.10+。加载文档
默认情况下,AirbyteLoader 将从数据流中加载任何结构化数据,并输出 YAML 格式的文档。
延迟加载文档
AirbyteLoader 的一个强大功能是它能够从上游数据源加载大型文档。在处理大型数据集时,默认的 .load() 行为可能会很慢且占用大量内存。为避免这种情况,您可以使用 .lazy_load() 方法以更节省内存的方式加载文档。
.alazy_load() 以异步方式延迟加载文档。
配置
AirbyteLoader 可以通过以下选项进行配置:
source(str, 必需):要加载的 Airbyte 源的名称。stream(str, 必需):要加载的数据流的名称(Airbyte 源可以返回多个数据流)。config(dict, 必需):Airbyte 源的配置。template(PromptTemplate, 可选):用于格式化文档的自定义提示模板。include_metadata(bool, 可选, 默认为 True):是否将所有字段作为元数据包含在输出文档中。
config 中完成,您可以在 Airbyte 文档 中每个源的“配置字段参考”部分找到具体的配置选项。
以编程方式连接这些文档到 Claude、VSCode 等,通过 MCP 获取实时答案。