BaseLoader 接口。接口
每个文档加载器可以定义自己的参数,但它们共享一个公共 API.load()– 一次性加载所有文档。.lazy_load()– 惰性流式传输文档,适用于大型数据集。
按类别
网页
以下文档加载器允许您加载网页。| 文档加载器 | 描述 | 包/API |
|---|---|---|
| Web | 使用 urllib 和 BeautifulSoup 加载和解析 HTML 网页 | 包 |
| Unstructured | 使用 Unstructured 加载和解析网页 | 包 |
| RecursiveURL | 从根 URL 递归抓取所有子链接 | 包 |
| Sitemap | 抓取给定站点地图上的所有页面 | 包 |
| Spider | 爬虫和抓取工具,返回 LLM 可用的数据 | API |
| Firecrawl | 可本地部署的 API 服务 | API |
| Docling | 使用 Docling 加载和解析网页 | 包 |
| Hyperbrowser | 用于运行和扩展无头浏览器的平台,可用于抓取任何网站 | API |
| AgentQL | 使用 AgentQL 查询或自然语言提示从任何网页进行 Web 交互和结构化数据提取 | API |
| 文档加载器 | 描述 | 包/API |
|---|---|---|
| PyPDF | 使用 pypdf 加载和解析 PDF | 包 |
| Unstructured | 使用 Unstructured 的开源库加载 PDF | 包 |
| Amazon Textract | 使用 AWS API 加载 PDF | API |
| MathPix | 使用 MathPix 加载 PDF | 包 |
| PDFPlumber | 使用 PDFPlumber 加载 PDF 文件 | 包 |
| PyPDFDirectry | 加载包含 PDF 文件的目录 | 包 |
| PyPDFium2 | 使用 PyPDFium2 加载 PDF 文件 | 包 |
| PyMuPDF | 使用 PyMuPDF 加载 PDF 文件 | 包 |
| PyMuPDF4LLM | 使用 PyMuPDF4LLM 将 PDF 内容加载到 Markdown | 包 |
| PDFMiner | 使用 PDFMiner 加载 PDF 文件 | 包 |
| Upstage Document Parse Loader | 使用 UpstageDocumentParseLoader 加载 PDF 文件 | 包 |
| Docling | 使用 Docling 加载 PDF 文件 | 包 |
| UnDatasIO | 使用 UnDatasIO 加载 PDF 文件 | 包 |
| OpenDataLoader PDF | 使用 OpenDataLoader PDF 加载 PDF 文件 | 包 |
云服务提供商
以下文档加载器允许您从您喜欢的云提供商加载文档。| 文档加载器 | 描述 | 合作伙伴包 | API 参考 |
|---|---|---|---|
| AWS S3 目录 | 从 AWS S3 目录加载文档 | ❌ | S3DirectoryLoader |
| AWS S3 文件 | 从 AWS S3 文件加载文档 | ❌ | S3FileLoader |
| Azure AI 数据 | 从 Azure AI 服务加载文档 | ❌ | AzureAIDataLoader |
| Azure Blob 存储 | 从 Azure Blob 存储加载文档 | ✅ | AzureBlobStorageLoader |
| Dropbox | 从 Dropbox 加载文档 | ❌ | DropboxLoader |
| Google Cloud 存储目录 | 从 GCS 存储桶加载文档 | ✅ | GCSDirectoryLoader |
| Google Cloud 存储文件 | 从 GCS 文件对象加载文档 | ✅ | GCSFileLoader |
| Google Drive | 从 Google Drive 加载文档(仅限 Google Docs) | ✅ | GoogleDriveLoader |
| 华为 OBS 目录 | 从华为对象存储服务目录加载文档 | ❌ | OBSDirectoryLoader |
| 华为 OBS 文件 | 从华为对象存储服务文件加载文档 | ❌ | OBSFileLoader |
| Microsoft OneDrive | 从 Microsoft OneDrive 加载文档 | ❌ | OneDriveLoader |
| Microsoft SharePoint | 从 Microsoft SharePoint 加载文档 | ❌ | SharePointLoader |
| 腾讯 COS 目录 | 从腾讯云对象存储目录加载文档 | ❌ | TencentCOSDirectoryLoader |
| 腾讯 COS 文件 | 从腾讯云对象存储文件加载文档 | ❌ | TencentCOSFileLoader |
社交平台
以下文档加载器允许您从不同的社交媒体平台加载文档。| 文档加载器 | API 参考 |
|---|---|
TwitterTweetLoader | |
RedditPostsLoader |
消息服务
以下文档加载器允许您从不同的消息平台加载数据。生产力工具
以下文档加载器允许您从常用的生产力工具加载数据。常见文件类型
以下文档加载器允许您从常见数据格式加载数据。| 文档加载器 | 数据类型 |
|---|---|
| CSVLoader | CSV 文件 |
| Unstructured | 多种文件类型(参见 https://docs.unstructured.io/platform/supported-file-types) |
| JSONLoader | JSON 文件 |
| BSHTMLLoader | HTML 文件 |
| DoclingLoader | 各种文件类型(参见 https://ds4sd.github.io/docling/) |
| PolarisAIDataInsightLoader | 各种文件类型(参见 https://datainsight.polarisoffice.com/documentation?docType=doc_extract) |
所有文档加载器
acreom
AgentQLLoader
AirbyteLoader
Airtable
Alibaba Cloud MaxCompute
Amazon Textract
Apify Dataset
ArxivLoader
AssemblyAI Audio Transcripts
AstraDB
Async Chromium
AsyncHtml
Athena
AWS S3 Directory
AWS S3 File
AZLyrics
Azure AI Data
Azure Blob Storage
Azure AI Document Intelligence
BibTeX
BiliBili
Blackboard
Blockchain
Box
Brave Search
Browserbase
Browserless
BSHTMLLoader
Cassandra
ChatGPT Data
College Confidential
Concurrent Loader
Confluence
CoNLL-U
Copy Paste
Couchbase
CSV
Cube Semantic Layer
Datadog Logs
Dedoc
Diffbot
Discord
Docling
Docugami
Docusaurus
Dropbox
EPub
Etherscan
EverNote
Facebook Chat
Fauna
Figma
FireCrawl
Geopandas
Git
GitBook
GitHub
Glue Catalog
Google AlloyDB for PostgreSQL
Google BigQuery
Google Bigtable
Google Cloud SQL for SQL Server
Google Cloud SQL for MySQL
Google Cloud SQL for PostgreSQL
Google Cloud Storage Directory
Google Cloud Storage File
Google Firestore in Datastore Mode
Google Drive
Google El Carro for Oracle Workloads
Google Firestore (Native Mode)
Google Memorystore for Redis
Google Spanner
Google Speech-to-Text
Grobid
Gutenberg
Hacker News
Huawei OBS Directory
Huawei OBS File
HuggingFace Dataset
HyperbrowserLoader
iFixit
Images
Image Captions
IMSDb
Iugu
Joplin
JSONLoader
Jupyter Notebook
Kinetica
lakeFS
LangSmith
LarkSuite (FeiShu)
LLM Sherpa
Mastodon
MathPixPDFLoader
MediaWiki Dump
Merge Documents Loader
MHTML
Microsoft Excel
Microsoft OneDrive
Microsoft OneNote
Microsoft PowerPoint
Microsoft SharePoint
Microsoft Word
Near Blockchain
Modern Treasury
MongoDB
Needle Document Loader
News URL
Notion DB
Nuclia
Obsidian
OpenDataLoader PDF
Open Document Format (ODT)
Open City Data
Oracle Autonomous Database
Oracle AI Vector Search
Org-mode
Outline Document Loader
Pandas DataFrame
PDFMinerLoader
PDFPlumber
Pebblo Safe DocumentLoader
Polaris AI DataInsight
Polars DataFrame
Dell PowerScale
Psychic
PubMed
PullMdLoader
PyMuPDFLoader
PyMuPDF4LLM
PyPDFDirectoryLoader
PyPDFium2Loader
PyPDFLoader
PySpark
Quip
ReadTheDocs Documentation
Recursive URL
Roam
Rockset
rspace
RSS Feeds
RST
scrapfly
ScrapingAnt
SingleStore
Sitemap
Slack
Snowflake
Source Code
Spider
Spreedly
Stripe
Subtitle
SurrealDB
Telegram
Tencent COS Directory
Tencent COS File
TensorFlow Datasets
TiDB
2Markdown
TOML
Trello
TSV
UnDatasIO
Unstructured
UnstructuredMarkdownLoader
UnstructuredPDFLoader
Upstage
URL
Vsdx
Weather
WebBaseLoader
WhatsApp Chat
Wikipedia
UnstructuredXMLLoader
Xorbits Pandas DataFrame
YouTube Audio
YouTube Transcripts
YoutubeLoaderDL
Yuque
ZeroxPDFLoader
以编程方式连接这些文档到 Claude、VSCode 等,通过 MCP 获取实时答案。