跳到主要内容
本指南提供了 WRITER PDFParser 文档加载器的快速入门概述。 WRITER 的 PDF 解析器可将 PDF 文档转换为其他格式,如文本或 Markdown。当您需要从 PDF 文件中提取和处理文本内容以进行进一步分析或集成到您的工作流程时,这特别有用。在 langchain-writer 中,我们提供了 WRITER PDF 解析器作为 LangChain 文档解析器的用法。

概览

集成详情

类别本地可序列化JS 支持下载量版本
PDFParserlangchain-writerPyPI - DownloadsPyPI - Version

设置

PDFParserlangchain-writer 包中可用
pip install --quiet -U langchain-writer

凭据

注册 WRITER AI Studio 以生成 API 密钥(您可以遵循此快速入门)。然后,设置 WRITER_API_KEY 环境变量
import getpass
import os

if not os.getenv("WRITER_API_KEY"):
    os.environ["WRITER_API_KEY"] = getpass.getpass("Enter your WRITER API key: ")
设置 LangSmith 以获得一流的可观测性也很有帮助(但不是必需的)。如果您希望这样做,可以设置 LANGSMITH_TRACINGLANGSMITH_API_KEY 环境变量
os.environ["LANGSMITH_TRACING"] = "true"
# os.environ["LANGSMITH_API_KEY"] = getpass.getpass()

实例化

接下来,使用所需的输出格式实例化 WRITER PDF 解析器
from langchain_writer.pdf_parser import PDFParser

parser = PDFParser(format="markdown")

用法

有两种方式使用 PDF 解析器,同步或异步。无论哪种情况,PDF 解析器都将返回一个 Document 对象列表,每个对象包含 PDF 文件中一页的解析内容。

同步用法

要同步调用 PDF 解析器,请将引用要解析的 PDF 文件的 Blob 对象传递给 parse 方法
from langchain_core.documents.base import Blob

file = Blob.from_path("../example_data/layout-parser-paper.pdf")

parsed_pages = parser.parse(blob=file)
parsed_pages

异步使用

要异步调用 PDF 解析器,请将引用要解析的 PDF 文件的 Blob 对象传递给 aparse 方法
parsed_pages_async = await parser.aparse(blob=file)
parsed_pages_async

API 参考

有关所有 PDFParser 功能和配置的详细文档,请参阅API 参考

附加资源

您可以在 WRITER 文档中找到有关 WRITER 模型(包括成本、上下文窗口和支持的输入类型)和工具的信息。
以编程方式连接这些文档到 Claude、VSCode 等,通过 MCP 获取实时答案。
© . This site is unofficial and not affiliated with LangChain, Inc.