跳到主要内容
文档加载器提供了标准接口,用于将来自不同来源(如 Slack、Notion 或 Google Drive)的数据读取到 LangChain 的 Document 格式中。这确保了无论数据来源如何,都可以以一致的方式处理数据。 所有文档加载器都实现了 BaseLoader 接口。

接口

每个文档加载器可以定义自己的参数,但它们共享一个通用 API
  • .load(): 一次性加载所有文档。
  • .loadAndSplit(): 一次性加载所有文档并将其拆分为更小的文档。
import { CSVLoader } from "@langchain/community/document_loaders/fs/csv";

const loader = new CSVLoader(
  ...  // <-- Integration specific parameters here
);
const data = await loader.load();

按类别

LangChain.js 将文档加载器分为两种不同的方式

文件加载器

如果您想贡献一个集成,请参阅 贡献集成

PDF

文档加载器描述包/API
PDFLoader使用 pdf-parse 加载和解析 PDF 文件

常见文件类型

文档加载器描述包/API
CSV从 CSV 文件加载数据,并可配置列提取
JSON使用 JSON 指针加载 JSON 文件以定位特定键
JSONLines从 JSONLines/JSONL 文件加载数据
文本加载纯文本文件
DOCX加载 Microsoft Word 文档(.docx 和 .doc 格式)
EPUB加载 EPUB 文件,可选择按章节拆分
PPTX加载 PowerPoint 演示文稿
字幕加载字幕文件(.srt 格式)

专用文件加载器

文档加载器描述包/API
DirectoryLoader从目录加载所有文件,并带自定义加载器映射
UnstructuredLoader使用非结构化 API 加载多种文件类型API
MultiFileLoader从多个独立的文件路径加载数据
ChatGPT加载 ChatGPT 对话导出
Notion Markdown加载导出为 Markdown 的 Notion 页面
OpenAI Whisper 音频使用 OpenAI Whisper API 转录音频文件API

网页加载器

网页

文档加载器描述Web 支持包/API
Cheerio使用 Cheerio 加载网页(轻量级,不执行 JavaScript)
Playwright使用 Playwright 加载动态网页(支持 JavaScript 渲染)
Puppeteer使用 Puppeteer 加载动态网页(无头 Chrome)
FireCrawl抓取网站并转换为 LLM-ready markdownAPI
Spider快速爬虫,将网站转换为 HTML、markdown 或文本API
RecursiveUrlLoader递归加载跟随链接的网页
Sitemap从 sitemap.xml 加载所有页面
Browserbase使用带隐身模式的托管无头浏览器加载网页API
WebPDFLoader在 Web 环境中加载 PDF 文件

云提供商

文档加载器描述Web 支持包/API
S3从 AWS S3 存储桶加载文件
Azure Blob 存储容器从 Azure Blob 存储容器加载所有文件
Azure Blob 存储文件从 Azure Blob 存储加载单个文件
Google Cloud Storage从 Google Cloud Storage 存储桶加载文件
适用于 PostgreSQL 的 Google Cloud SQL从 Cloud SQL PostgreSQL 数据库加载文档

生产力工具

文档加载器描述Web 支持包/API
Notion API通过 API 加载 Notion 页面和数据库API
Figma加载 Figma 文件数据API
Confluence从 Confluence 空间加载页面API
GitHub从 GitHub 仓库加载文件API
GitBook加载 GitBook 文档页面
Jira从 Jira 项目加载问题API
Airtable从 Airtable 数据库加载记录API
Taskade加载 Taskade 项目数据API

搜索和数据 API

文档加载器描述Web 支持包/API
SearchAPI从 SearchAPI 加载网页搜索结果(Google、YouTube 等)API
SerpAPI从 SerpAPI 加载网页搜索结果API
Apify 数据集从 Apify 平台加载抓取的数据API

音频和视频

文档加载器描述Web 支持包/API
YouTube加载 YouTube 视频转录
AssemblyAI使用 AssemblyAI API 转录音频和视频文件API
Sonix使用 Sonix API 转录音频文件API

其他

文档加载器描述Web 支持包/API
Couchbase使用 SQL++ 查询从 Couchbase 数据库加载文档
LangSmith从 LangSmith 加载数据集和跟踪API
Hacker News加载 Hacker News 帖子和评论
IMSDB从 Internet Movie Script Database 加载电影剧本
大学保密从 College Confidential 加载大学信息
区块链数据通过 Sort.xyz API 加载区块链数据(NFT、交易)API

所有文档加载器


以编程方式连接这些文档到 Claude、VSCode 等,通过 MCP 获取实时答案。
© . This site is unofficial and not affiliated with LangChain, Inc.