OpenDataLoader PDF

安全、开放、高性能 — 面向 AI 的 PDF OpenDataLoader PDF 可将 PDF 转换为 JSON、Markdown 或 HTML，以便输入到现代 AI 技术栈（LLM、向量搜索和 RAG）中。它能重建文档布局（标题、列表、表格和阅读顺序），使内容更易于分块、索引和查询。它基于快速、启发式、规则的推理，完全在您的本地机器上运行，并为大型文档集提供高吞吐量的处理。默认启用 AI 安全功能，并自动过滤 PDF 中可能存在的提示注入内容，以降低下游风险。

概览

集成详情

类别	包	本地	可序列化	JS 支持
OpenDataLoader PDF	langchain-opendataloader-pdf	✅	❌	❌

加载器功能

来源	文档延迟加载	原生异步支持
OpenDataLoaderPDFLoader	✅	❌

OpenDataLoaderPDFLoader 组件使您能够将 PDF 解析为结构化的 Document 对象。

要求

Python >= 3.9
系统 PATH 中可用的 Java 11 或更高版本
opendataloader-pdf >= 1.1.1

安装

pip install -U langchain-opendataloader-pdf

快速开始

from langchain_opendataloader_pdf import OpenDataLoaderPDFLoader

loader = OpenDataLoaderPDFLoader(
    file_path=["path/to/document.pdf", "path/to/folder"],
    format="text"
)
documents = loader.load()

for doc in documents:
    print(doc.metadata, doc.page_content[:80])

参数

参数	类型	必填	默认	描述
`file_path`	`List[str]`	✅ 是	—	一个或多个要处理的 PDF 文件路径或目录。
`格式`	`str`	否	`无`	输出格式（例如 `"json"`, `"html"`, `"markdown"`, `"text"`）。
`quiet`	`bool`	否	`False`	当为 `True` 时，禁止 CLI 日志输出。
`content_safety_off`	`Optional[List[str]]`	否	`无`	要禁用的内容安全过滤器列表（例如 `"all"`, `"hidden-text"`, `"off-page"`, `"tiny"`, `"hidden-ocg"`）。

附加资源

在 GitHub 上编辑此页面源文件。

以编程方式连接这些文档到 Claude、VSCode 等，通过 MCP 获取实时答案。

热门提供商

按组件划分的集成

概览

集成详情

加载器功能

要求

安装

快速开始

参数

附加资源

热门提供商

按组件划分的集成

​概览

​集成详情

​加载器功能

​要求

​安装

​快速开始

​参数

​附加资源

概览

集成详情

加载器功能

要求

安装

快速开始

参数

附加资源