概览
集成详情
| 类别 | 包 | 本地 | 可序列化 | JS 支持 |
|---|---|---|---|---|
| OpenDataLoader PDF | langchain-opendataloader-pdf | ✅ | ❌ | ❌ |
加载器功能
| 来源 | 文档延迟加载 | 原生异步支持 |
|---|---|---|
| OpenDataLoaderPDFLoader | ✅ | ❌ |
OpenDataLoaderPDFLoader 组件使您能够将 PDF 解析为结构化的 Document 对象。
要求
- Python >= 3.9
- 系统
PATH中可用的 Java 11 或更高版本 - opendataloader-pdf >= 1.1.1
安装
快速开始
参数
| 参数 | 类型 | 必填 | 默认 | 描述 |
|---|---|---|---|---|
file_path | List[str] | ✅ 是 | — | 一个或多个要处理的 PDF 文件路径或目录。 |
格式 | str | 否 | 无 | 输出格式(例如 "json", "html", "markdown", "text")。 |
quiet | bool | 否 | False | 当为 True 时,禁止 CLI 日志输出。 |
content_safety_off | Optional[List[str]] | 否 | 无 | 要禁用的内容安全过滤器列表(例如 "all", "hidden-text", "off-page", "tiny", "hidden-ocg")。 |
附加资源
- LangChain OpenDataLoader PDF 集成 GitHub
- LangChain OpenDataLoader PDF 集成 PyPI 包
- OpenDataLoader PDF GitHub
- OpenDataLoader PDF 主页
以编程方式连接这些文档到 Claude、VSCode 等,通过 MCP 获取实时答案。