跳到主要内容
文档加载器提供了一个标准接口,用于将来自不同来源(如 Slack、Notion 或 Google Drive)的数据读取到 LangChain 的 Document 格式中。这确保了数据无论来源如何都可以得到一致的处理。 所有文档加载器都实现了 BaseLoader 接口。

接口

每个文档加载器可以定义自己的参数,但它们共享一个公共 API
  • .load() – 一次性加载所有文档。
  • .lazy_load() – 惰性流式传输文档,适用于大型数据集。
from langchain_community.document_loaders.csv_loader import CSVLoader

loader = CSVLoader(
    ...  # Integration-specific parameters here
)

# Load all documents
documents = loader.load()

# For large datasets, lazily load documents
for document in loader.lazy_load():
    print(document)

按类别

网页

以下文档加载器允许您加载网页。
文档加载器描述包/API
Web使用 urllib 和 BeautifulSoup 加载和解析 HTML 网页
Unstructured使用 Unstructured 加载和解析网页
RecursiveURL从根 URL 递归抓取所有子链接
Sitemap抓取给定站点地图上的所有页面
Spider爬虫和抓取工具,返回 LLM 可用的数据API
Firecrawl可本地部署的 API 服务API
Docling使用 Docling 加载和解析网页
Hyperbrowser用于运行和扩展无头浏览器的平台,可用于抓取任何网站API
AgentQL使用 AgentQL 查询或自然语言提示从任何网页进行 Web 交互和结构化数据提取API

PDF

以下文档加载器允许您加载 PDF 文档。
文档加载器描述包/API
PyPDF使用 pypdf 加载和解析 PDF
Unstructured使用 Unstructured 的开源库加载 PDF
Amazon Textract使用 AWS API 加载 PDFAPI
MathPix使用 MathPix 加载 PDF
PDFPlumber使用 PDFPlumber 加载 PDF 文件
PyPDFDirectry加载包含 PDF 文件的目录
PyPDFium2使用 PyPDFium2 加载 PDF 文件
PyMuPDF使用 PyMuPDF 加载 PDF 文件
PyMuPDF4LLM使用 PyMuPDF4LLM 将 PDF 内容加载到 Markdown
PDFMiner使用 PDFMiner 加载 PDF 文件
Upstage Document Parse Loader使用 UpstageDocumentParseLoader 加载 PDF 文件
Docling使用 Docling 加载 PDF 文件
UnDatasIO使用 UnDatasIO 加载 PDF 文件
OpenDataLoader PDF使用 OpenDataLoader PDF 加载 PDF 文件

云服务提供商

以下文档加载器允许您从您喜欢的云提供商加载文档。
文档加载器描述合作伙伴包API 参考
AWS S3 目录从 AWS S3 目录加载文档S3DirectoryLoader
AWS S3 文件从 AWS S3 文件加载文档S3FileLoader
Azure AI 数据从 Azure AI 服务加载文档AzureAIDataLoader
Azure Blob 存储从 Azure Blob 存储加载文档AzureBlobStorageLoader
Dropbox从 Dropbox 加载文档DropboxLoader
Google Cloud 存储目录从 GCS 存储桶加载文档GCSDirectoryLoader
Google Cloud 存储文件从 GCS 文件对象加载文档GCSFileLoader
Google Drive从 Google Drive 加载文档(仅限 Google Docs)GoogleDriveLoader
华为 OBS 目录从华为对象存储服务目录加载文档OBSDirectoryLoader
华为 OBS 文件从华为对象存储服务文件加载文档OBSFileLoader
Microsoft OneDrive从 Microsoft OneDrive 加载文档OneDriveLoader
Microsoft SharePoint从 Microsoft SharePoint 加载文档SharePointLoader
腾讯 COS 目录从腾讯云对象存储目录加载文档TencentCOSDirectoryLoader
腾讯 COS 文件从腾讯云对象存储文件加载文档TencentCOSFileLoader

社交平台

以下文档加载器允许您从不同的社交媒体平台加载文档。

消息服务

以下文档加载器允许您从不同的消息平台加载数据。

生产力工具

以下文档加载器允许您从常用的生产力工具加载数据。

常见文件类型

以下文档加载器允许您从常见数据格式加载数据。

所有文档加载器

acreom

AgentQLLoader

AirbyteLoader

Airtable

Alibaba Cloud MaxCompute

Amazon Textract

Apify Dataset

ArxivLoader

AssemblyAI Audio Transcripts

AstraDB

Async Chromium

AsyncHtml

Athena

AWS S3 Directory

AWS S3 File

AZLyrics

Azure AI Data

Azure Blob Storage

Azure AI Document Intelligence

BibTeX

BiliBili

Blackboard

Blockchain

Box

Brave Search

Browserbase

Browserless

BSHTMLLoader

Cassandra

ChatGPT Data

College Confidential

Concurrent Loader

Confluence

CoNLL-U

Copy Paste

Couchbase

CSV

Cube Semantic Layer

Datadog Logs

Dedoc

Diffbot

Discord

Docling

Docugami

Docusaurus

Dropbox

Email

EPub

Etherscan

EverNote

Facebook Chat

Fauna

Figma

FireCrawl

Geopandas

Git

GitBook

GitHub

Glue Catalog

Google AlloyDB for PostgreSQL

Google BigQuery

Google Bigtable

Google Cloud SQL for SQL Server

Google Cloud SQL for MySQL

Google Cloud SQL for PostgreSQL

Google Cloud Storage Directory

Google Cloud Storage File

Google Firestore in Datastore Mode

Google Drive

Google El Carro for Oracle Workloads

Google Firestore (Native Mode)

Google Memorystore for Redis

Google Spanner

Google Speech-to-Text

Grobid

Gutenberg

Hacker News

Huawei OBS Directory

Huawei OBS File

HuggingFace Dataset

HyperbrowserLoader

iFixit

Images

Image Captions

IMSDb

Iugu

Joplin

JSONLoader

Jupyter Notebook

Kinetica

lakeFS

LangSmith

LarkSuite (FeiShu)

LLM Sherpa

Mastodon

MathPixPDFLoader

MediaWiki Dump

Merge Documents Loader

MHTML

Microsoft Excel

Microsoft OneDrive

Microsoft OneNote

Microsoft PowerPoint

Microsoft SharePoint

Microsoft Word

Near Blockchain

Modern Treasury

MongoDB

Needle Document Loader

News URL

Notion DB

Nuclia

Obsidian

OpenDataLoader PDF

Open Document Format (ODT)

Open City Data

Oracle Autonomous Database

Oracle AI Vector Search

Org-mode

Outline Document Loader

Pandas DataFrame

PDFMinerLoader

PDFPlumber

Pebblo Safe DocumentLoader

Polaris AI DataInsight

Polars DataFrame

Dell PowerScale

Psychic

PubMed

PullMdLoader

PyMuPDFLoader

PyMuPDF4LLM

PyPDFDirectoryLoader

PyPDFium2Loader

PyPDFLoader

PySpark

Quip

ReadTheDocs Documentation

Recursive URL

Reddit

Roam

Rockset

rspace

RSS Feeds

RST

scrapfly

ScrapingAnt

SingleStore

Sitemap

Slack

Snowflake

Source Code

Spider

Spreedly

Stripe

Subtitle

SurrealDB

Telegram

Tencent COS Directory

Tencent COS File

TensorFlow Datasets

TiDB

2Markdown

TOML

Trello

TSV

Twitter

UnDatasIO

Unstructured

UnstructuredMarkdownLoader

UnstructuredPDFLoader

Upstage

URL

Vsdx

Weather

WebBaseLoader

WhatsApp Chat

Wikipedia

UnstructuredXMLLoader

Xorbits Pandas DataFrame

YouTube Audio

YouTube Transcripts

YoutubeLoaderDL

Yuque

ZeroxPDFLoader


以编程方式连接这些文档到 Claude、VSCode 等,通过 MCP 获取实时答案。
© . This site is unofficial and not affiliated with LangChain, Inc.