跳到主要内容
安全、开放、高性能 — 面向 AI 的 PDF OpenDataLoader PDF 可将 PDF 转换为 JSON、Markdown 或 HTML,以便输入到现代 AI 技术栈(LLM、向量搜索和 RAG)中。 它能重建文档布局(标题、列表、表格和阅读顺序),使内容更易于分块、索引和查询。它基于快速、启发式、规则的推理,完全在您的本地机器上运行,并为大型文档集提供高吞吐量的处理。默认启用 AI 安全功能,并自动过滤 PDF 中可能存在的提示注入内容,以降低下游风险。

概览

集成详情

类别本地可序列化JS 支持
OpenDataLoader PDFlangchain-opendataloader-pdf

加载器功能

来源文档延迟加载原生异步支持
OpenDataLoaderPDFLoader
OpenDataLoaderPDFLoader 组件使您能够将 PDF 解析为结构化的 Document 对象。

要求

  • Python >= 3.9
  • 系统 PATH 中可用的 Java 11 或更高版本
  • opendataloader-pdf >= 1.1.1

安装

pip install -U langchain-opendataloader-pdf

快速开始

from langchain_opendataloader_pdf import OpenDataLoaderPDFLoader

loader = OpenDataLoaderPDFLoader(
    file_path=["path/to/document.pdf", "path/to/folder"],
    format="text"
)
documents = loader.load()

for doc in documents:
    print(doc.metadata, doc.page_content[:80])

参数

参数类型必填默认描述
file_pathList[str]✅ 是一个或多个要处理的 PDF 文件路径或目录。
格式str输出格式(例如 "json", "html", "markdown", "text")。
quietboolFalse当为 True 时,禁止 CLI 日志输出。
content_safety_offOptional[List[str]]要禁用的内容安全过滤器列表(例如 "all", "hidden-text", "off-page", "tiny", "hidden-ocg")。

附加资源


以编程方式连接这些文档到 Claude、VSCode 等,通过 MCP 获取实时答案。
© . This site is unofficial and not affiliated with LangChain, Inc.