安全、开放、高性能 — 面向 AI 的 PDF
OpenDataLoader PDF 将 PDF 转换为 JSON、Markdown 或 Html 格式 — 可用于现代 AI 堆栈(LLM、向量搜索和 RAG)。 它重建文档布局(标题、列表、表格和阅读顺序),使内容更易于分块、索引和查询。它由快速、启发式、基于规则的推理提供支持,完全在您的本地机器上运行,并为大型文档集提供高吞吐量处理。AI 安全默认启用,自动过滤 PDF 中可能嵌入的提示注入内容,以降低下游风险。
要求
- Python >= 3.9
- 系统 `PATH` 中可用的 Java 11 或更高版本
- opendataloader-pdf >= 1.1.1
安装
快速开始
参数
| 参数 | 类型 | 必填 | 默认 | 描述 |
|---|---|---|---|---|
file_path | List[str] | ✅ 是 | — | 一个或多个要处理的 PDF 文件路径或目录。 |
格式 | str | 否 | 无 | 输出格式(例如 `“json”`、`“html”`、`“markdown”`、`“text”`)。 |
quiet | bool | 否 | False | 当 `True` 时抑制 CLI 日志输出。 |
content_safety_off | Optional[List[str]] | 否 | 无 | 要禁用的内容安全过滤器列表(例如 `“all”`、`“hidden-text”`、`“off-page”`、`“tiny”`、`“hidden-ocg”`)。 |
附加资源
- LangChain OpenDataLoader PDF 集成 GitHub
- LangChain OpenDataLoader PDF 集成 PyPI 包
- OpenDataLoader PDF GitHub
- OpenDataLoader PDF 主页
以编程方式连接这些文档到 Claude、VSCode 等,通过 MCP 获取实时答案。