接口
每个文档加载器可以定义自己的参数,但它们共享一个通用 API.load(): 一次性加载所有文档。.loadAndSplit(): 一次性加载所有文档并将其拆分为更小的文档。
按类别
LangChain.js 将文档加载器分为两种不同的方式文件加载器
如果您想贡献一个集成,请参阅 贡献集成。
| 文档加载器 | 描述 | 包/API |
|---|---|---|
| PDFLoader | 使用 pdf-parse 加载和解析 PDF 文件 | 包 |
常见文件类型
专用文件加载器
| 文档加载器 | 描述 | 包/API |
|---|---|---|
| DirectoryLoader | 从目录加载所有文件,并带自定义加载器映射 | 包 |
| UnstructuredLoader | 使用非结构化 API 加载多种文件类型 | API |
| MultiFileLoader | 从多个独立的文件路径加载数据 | 包 |
| ChatGPT | 加载 ChatGPT 对话导出 | 包 |
| Notion Markdown | 加载导出为 Markdown 的 Notion 页面 | 包 |
| OpenAI Whisper 音频 | 使用 OpenAI Whisper API 转录音频文件 | API |
网页加载器
网页
| 文档加载器 | 描述 | Web 支持 | 包/API |
|---|---|---|---|
| Cheerio | 使用 Cheerio 加载网页(轻量级,不执行 JavaScript) | ✅ | 包 |
| Playwright | 使用 Playwright 加载动态网页(支持 JavaScript 渲染) | ❌ | 包 |
| Puppeteer | 使用 Puppeteer 加载动态网页(无头 Chrome) | ❌ | 包 |
| FireCrawl | 抓取网站并转换为 LLM-ready markdown | ✅ | API |
| Spider | 快速爬虫,将网站转换为 HTML、markdown 或文本 | ✅ | API |
| RecursiveUrlLoader | 递归加载跟随链接的网页 | ❌ | 包 |
| Sitemap | 从 sitemap.xml 加载所有页面 | ✅ | 包 |
| Browserbase | 使用带隐身模式的托管无头浏览器加载网页 | ✅ | API |
| WebPDFLoader | 在 Web 环境中加载 PDF 文件 | ✅ | 包 |
云提供商
| 文档加载器 | 描述 | Web 支持 | 包/API |
|---|---|---|---|
| S3 | 从 AWS S3 存储桶加载文件 | ❌ | 包 |
| Azure Blob 存储容器 | 从 Azure Blob 存储容器加载所有文件 | ❌ | 包 |
| Azure Blob 存储文件 | 从 Azure Blob 存储加载单个文件 | ❌ | 包 |
| Google Cloud Storage | 从 Google Cloud Storage 存储桶加载文件 | ❌ | 包 |
| 适用于 PostgreSQL 的 Google Cloud SQL | 从 Cloud SQL PostgreSQL 数据库加载文档 | ✅ | 包 |
生产力工具
| 文档加载器 | 描述 | Web 支持 | 包/API |
|---|---|---|---|
| Notion API | 通过 API 加载 Notion 页面和数据库 | ✅ | API |
| Figma | 加载 Figma 文件数据 | ✅ | API |
| Confluence | 从 Confluence 空间加载页面 | ❌ | API |
| GitHub | 从 GitHub 仓库加载文件 | ✅ | API |
| GitBook | 加载 GitBook 文档页面 | ✅ | 包 |
| Jira | 从 Jira 项目加载问题 | ❌ | API |
| Airtable | 从 Airtable 数据库加载记录 | ✅ | API |
| Taskade | 加载 Taskade 项目数据 | ✅ | API |
搜索和数据 API
音频和视频
| 文档加载器 | 描述 | Web 支持 | 包/API |
|---|---|---|---|
| YouTube | 加载 YouTube 视频转录 | ✅ | 包 |
| AssemblyAI | 使用 AssemblyAI API 转录音频和视频文件 | ✅ | API |
| Sonix | 使用 Sonix API 转录音频文件 | ❌ | API |
其他
所有文档加载器
Airtable
Apify Dataset
AssemblyAI Audio Transcript
Azure Blob Storage Container
Azure Blob Storage File
Blockchain Data
Browserbase
ChatGPT
Cheerio
College Confidential
Confluence
Couchbase
CSV
DirectoryLoader
DOCX
EPUB
Figma
FireCrawl
GitHub
GitBook
Google Cloud SQL for PostgreSQL
Google Cloud Storage
Hacker News
IMSDB
Jira
JSON
JSONLines
LangSmith
MultiFileLoader
Notion API
Notion Markdown
OpenAI Whisper Audio
PDFLoader
Playwright
PPTX
Puppeteer
RecursiveUrlLoader
S3
SearchAPI
SerpAPI
Sitemap
Sonix Audio
Spider
Subtitles
Taskade
Text
UnstructuredLoader
WebPDFLoader
YouTube
以编程方式连接这些文档到 Claude、VSCode 等,通过 MCP 获取实时答案。