OpenDataLoader PDF

安全、开放、高性能 — 面向 AI 的 PDF

OpenDataLoader PDF 将 PDF 转换为 JSON、Markdown 或 Html 格式 — 可用于现代 AI 堆栈（LLM、向量搜索和 RAG）。它重建文档布局（标题、列表、表格和阅读顺序），使内容更易于分块、索引和查询。它由快速、启发式、基于规则的推理提供支持，完全在您的本地机器上运行，并为大型文档集提供高吞吐量处理。AI 安全默认启用，自动过滤 PDF 中可能嵌入的提示注入内容，以降低下游风险。

要求

Python >= 3.9
系统 `PATH` 中可用的 Java 11 或更高版本
opendataloader-pdf >= 1.1.1

安装

pip install -U langchain-opendataloader-pdf

快速开始

from langchain_opendataloader_pdf import OpenDataLoaderPDFLoader

loader = OpenDataLoaderPDFLoader(
    file_path=["path/to/document.pdf", "path/to/folder"], 
    format="text"
)
documents = loader.load()

for doc in documents:
    print(doc.metadata, doc.page_content[:80])

参数

参数	类型	必填	默认	描述
`file_path`	`List[str]`	✅ 是	—	一个或多个要处理的 PDF 文件路径或目录。
`格式`	`str`	否	`无`	输出格式（例如 `“json”`、`“html”`、`“markdown”`、`“text”`）。
`quiet`	`bool`	否	`False`	当 `True` 时抑制 CLI 日志输出。
`content_safety_off`	`Optional[List[str]]`	否	`无`	要禁用的内容安全过滤器列表（例如 `“all”`、`“hidden-text”`、`“off-page”`、`“tiny”`、`“hidden-ocg”`）。

附加资源

在 GitHub 上编辑此页面源文件。

以编程方式连接这些文档到 Claude、VSCode 等，通过 MCP 获取实时答案。

热门提供商

按组件划分的集成

要求

安装

快速开始

参数

附加资源

热门提供商

按组件划分的集成

​要求

​安装

​快速开始

​参数

​附加资源

要求

安装

快速开始

参数

附加资源