跳到主要内容
安全、开放、高性能 — 面向 AI 的 PDF
OpenDataLoader PDF 将 PDF 转换为 JSON、Markdown 或 Html 格式 — 可用于现代 AI 堆栈(LLM、向量搜索和 RAG)。 它重建文档布局(标题、列表、表格和阅读顺序),使内容更易于分块、索引和查询。它由快速、启发式、基于规则的推理提供支持,完全在您的本地机器上运行,并为大型文档集提供高吞吐量处理。AI 安全默认启用,自动过滤 PDF 中可能嵌入的提示注入内容,以降低下游风险。

要求

  • Python >= 3.9
  • 系统 `PATH` 中可用的 Java 11 或更高版本
  • opendataloader-pdf >= 1.1.1

安装

pip install -U langchain-opendataloader-pdf

快速开始

from langchain_opendataloader_pdf import OpenDataLoaderPDFLoader

loader = OpenDataLoaderPDFLoader(
    file_path=["path/to/document.pdf", "path/to/folder"], 
    format="text"
)
documents = loader.load()

for doc in documents:
    print(doc.metadata, doc.page_content[:80])

参数

参数类型必填默认描述
file_pathList[str]✅ 是一个或多个要处理的 PDF 文件路径或目录。
格式str输出格式(例如 `“json”`、`“html”`、`“markdown”`、`“text”`)。
quietboolFalse当 `True` 时抑制 CLI 日志输出。
content_safety_offOptional[List[str]]要禁用的内容安全过滤器列表(例如 `“all”`、`“hidden-text”`、`“off-page”`、`“tiny”`、`“hidden-ocg”`)。

附加资源


以编程方式连接这些文档到 Claude、VSCode 等,通过 MCP 获取实时答案。
© . This site is unofficial and not affiliated with LangChain, Inc.